自动语音识别的解释
本文介绍了从图像分类领域中最新的可解释 AI 技术 “局部可解释模型 - 对抗性解释(LIME)”,应用于 TIMIT 语音数据集的语音识别任务中。将时间分割的音频片段作为解释器,本文提出的改进版本可以在其前三个音频片段中包含 96% 的真值,从而产生最可靠的解释。
May, 2023
本文介绍了如何使用图像识别中的归因方法,结合音频数据,帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation(LRP)、Saliency Maps 和 Shapley Additive Explanations(SHAP)这三种可视化技术,展示了归因方法的优势和应用前景,包括在检测对抗性样本方面。
Feb, 2022
对于理解语音模型,我们引入了一种新的方法,通过在两个信息层面上对输入进行扰动,生成易于理解的解释,以揭示语音分类模型中每个与单词相关的音频片段对结果的影响,并回答 “如果我们以这种方式编辑音频信号,模型的预测结果会是什么?”。我们在英语和意大利语的两个语音分类任务上验证了我们的方法,发现解释对于模型的内在工作是准确的且对人类来说是可信的,为未来关于解释语音模型的研究铺平了道路。
Sep, 2023
通过提出一个 Speech 和 Text 综合考虑的 Error Explainable Benchmark 数据集,我们能够更全面地了解 ASR 模型的不足之处,消除系统的弱点,从而提高用户体验。
Jan, 2024
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
Jun, 2021
本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析,并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务,通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作,确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。
Jul, 2018
通过神经网络的层级表达,在多个任务中评估自动语音识别声学模型的性能变化和目标任务,我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示,基于神经网络的声学模型拥有异质信息,似乎与音素识别没有相关性,例如情感、情绪或说话人身份,而低层隐藏层总体上对信息结构有用,而上层则倾向于删除对音素识别无用的信息。
Feb, 2024
本研究比较了 2 组手动转录和 5 组自动转录(Google Cloud,IBM Watson,Microsoft Azure,Trint 和 YouTube)的表现,并指出了与不可理解的语音相关的非语言行为。我们发现,手动转录仍优于当前的自动转录。在自动转录服务中,YouTube 提供了最准确的转录服务
Apr, 2019
自动语音识别(ASR)是计算语言学的一个关键领域,主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面,使用监督学习训练改善语音识别的神经网络,并设计对声音信号进行准确对齐的新型反向传播方法。
Jun, 2024