自然语音识别可视化 —— 提高理解的方法？

MMFeb, 2022

自然语音识别可视化 —— 提高理解的方法？

Visualizing Automatic Speech Recognition -- Means for a Better Understanding?

Karla Markert, Romain Parracone, Mykhailo Kulakov, Philip Sperl, Ching-Yu Kao...

TL;DR本文介绍了如何使用图像识别中的归因方法，结合音频数据，帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation（LRP）、Saliency Maps 和 Shapley Additive Explanations（SHAP）这三种可视化技术，展示了归因方法的优势和应用前景，包括在检测对抗性样本方面。

Abstract

automatic speech recognition (ASR) is improving ever more at mimicking human speech processing. The functioning of ASR, however, remains to a large extent obfuscated by the complex structure of the deep neural networks<

automatic speech recognition deep neural networks attribution methods visualization techniques adversarial examples

发现论文，激发创造

端到端语音识别的神经表示洞察

本文分析了使用 CNN、LSTM 和 Transformer 等网络模型进行端到端自动语音识别模型训练时层之间的内部动态，通过规范相关性分析和中心核对齐，发现 CNN 层内的神经表示随着层深度的增加而表现出层级相关性依赖性，而这种行为在 LSTM 架构中不会观察到，但在 Transformer 编码器层中会出现不规则的系数相关性随神经深度的增加而增加，这些结果提供了神经体系结构对语音识别性能的作用的新见解，可用作构建更好的语音识别模型的指示器。

May, 2022

探究神经网络语音模型中自动语音识别系统所编码的信息

通过神经网络的层级表达，在多个任务中评估自动语音识别声学模型的性能变化和目标任务，我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示，基于神经网络的声学模型拥有异质信息，似乎与音素识别没有相关性，例如情感、情绪或说话人身份，而低层隐藏层总体上对信息结构有用，而上层则倾向于删除对音素识别无用的信息。

Feb, 2024

自动语音识别的解释

本研究提供了一种基于解释性人工智能的方法，旨在帮助提高人们对神经网络自动语音识别系统的理解及信任度，并针对文本转录的特性提出了针对性的解释方式，通过解释性故障定位和因果关系建立，以及基于局部可解释性模型的方法进行解释结果的评估。

Feb, 2023

基于 DNN 性能度量的语音可懂度预测

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022

解释和说明用于音频信号分类的深度神经网络

本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析，并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务，通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作，确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。

Jul, 2018

语义网络重新评分提升自动语音识别系统的上下文识别能力

我们提出了一种新方法，在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力，从而准确地递交准确的转录结果，涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模，通过使用基于 Transformer 的模型对单词格进行重新评分，实现了显著的性能提升和词错误率的明显降低，在 LibriSpeech 数据集上进行了实证分析，证明了我们提出的框架的有效性。

Oct, 2023

基于 ASR 的情感识别特征：迁移学习方法

本文研究了使用神经自动语音识别（ASR）作为情感识别的特征提取器，在预测色调和唤起情绪维度方面，这些特征优于 eGeMAPS 特征集。我们还研究了 ASR 的第一层和最后一层与 valence/arousal 之间的关系。

May, 2018

无监督自动语音识别：综述

这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Jun, 2021

深度迁移学习用于自动语音识别：迈向更好的泛化能力

本论文通过应用深度迁移学习的自动语音识别框架对最新的发展进行综合调查研究，以帮助学术和专业人士了解当前挑战，并识别论文中每个框架的优缺点。

Apr, 2023

基于先进深度学习方法的自动语音识别：一项调查

深度学习在自动语音识别方面的应用以及与其他先进的学习技术的综合回顾，旨在帮助研究人员和专业人员了解当前的挑战和未来的研究机会。

Mar, 2024