自动语音识别的解释

Feb, 2023

Explanations for Automatic Speech Recognition

Xiaoliang Wu, Peter Bell, Ajitha Rajan

TL;DR本研究提供了一种基于解释性人工智能的方法，旨在帮助提高人们对神经网络自动语音识别系统的理解及信任度，并针对文本转录的特性提出了针对性的解释方式，通过解释性故障定位和因果关系建立，以及基于局部可解释性模型的方法进行解释结果的评估。

Abstract

We address quality assessment for neural network based asr by providing explanations that help increase our understanding of the system and ultimately help build trust in the system. Compared to simple classifica

neural network asr explanation interpretable machine learning xai

发现论文，激发创造

可解释人工智能方法在语音识别中的可靠性评估 —— 以音素识别为例

本文介绍了从图像分类领域中最新的可解释 AI 技术 “局部可解释模型 - 对抗性解释（LIME）”，应用于 TIMIT 语音数据集的语音识别任务中。将时间分割的音频片段作为解释器，本文提出的改进版本可以在其前三个音频片段中包含 96% 的真值，从而产生最可靠的解释。

May, 2023

自然语音识别可视化 —— 提高理解的方法？

本文介绍了如何使用图像识别中的归因方法，结合音频数据，帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation（LRP）、Saliency Maps 和 Shapley Additive Explanations（SHAP）这三种可视化技术，展示了归因方法的优势和应用前景，包括在检测对抗性样本方面。

Feb, 2022

通过词级音频片段和语言学特征解释语音分类模型

对于理解语音模型，我们引入了一种新的方法，通过在两个信息层面上对输入进行扰动，生成易于理解的解释，以揭示语音分类模型中每个与单词相关的音频片段对结果的影响，并回答 “如果我们以这种方式编辑音频信号，模型的预测结果会是什么？”。我们在英语和意大利语的两个语音分类任务上验证了我们的方法，发现解释对于模型的内在工作是准确的且对人类来说是可信的，为未来关于解释语音模型的研究铺平了道路。

Sep, 2023

实用自动语音识别与后处理：可解释错误基准指南的呼吁

通过提出一个 Speech 和 Text 综合考虑的 Error Explainable Benchmark 数据集，我们能够更全面地了解 ASR 模型的不足之处，消除系统的弱点，从而提高用户体验。

Jan, 2024

无监督自动语音识别：综述

这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Jun, 2021

解释和说明用于音频信号分类的深度神经网络

本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析，并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务，通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作，确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。

Jul, 2018

探究神经网络语音模型中自动语音识别系统所编码的信息

通过神经网络的层级表达，在多个任务中评估自动语音识别声学模型的性能变化和目标任务，我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示，基于神经网络的声学模型拥有异质信息，似乎与音素识别没有相关性，例如情感、情绪或说话人身份，而低层隐藏层总体上对信息结构有用，而上层则倾向于删除对音素识别无用的信息。

Feb, 2024

对话语言的自动语音识别系统评估：语言学视角

本文以法语为案例研究，从语言学的角度探讨自动语音识别系统在复杂语境下的识别准确度，并解决了法语同音词的歧义问题，提高了法语语音转写准确度。

Nov, 2022

在线自动语音识别系统与难以理解语音的非语言反应比较

本研究比较了 2 组手动转录和 5 组自动转录（Google Cloud，IBM Watson，Microsoft Azure，Trint 和 YouTube）的表现，并指出了与不可理解的语音相关的非语言行为。我们发现，手动转录仍优于当前的自动转录。在自动转录服务中，YouTube 提供了最准确的转录服务

Apr, 2019

自动语音识别系统 —— 印地语

自动语音识别（ASR）是计算语言学的一个关键领域，主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面，使用监督学习训练改善语音识别的神经网络，并设计对声音信号进行准确对齐的新型反向传播方法。

Jun, 2024