用引导注意力改进 ASR 上下文偏见

Jan, 2024

用引导注意力改进 ASR 上下文偏见

Improving ASR Contextual Biasing with Guided Attention

Jiyang Tang, Kwangyoun Kim, Suwon Shon, Felix Wu, Prashant Sridhar...

TL;DR通过引入引导注意力（GA）辅助训练损失，本研究提出了一种改进自动语音识别（ASR）上下文偏置的有效性和鲁棒性的方法，该方法在不引入额外参数的情况下改善了偏置短语数量增加时上下文偏置所能带来的字错误率（WER）减少。通过在 Conformer Transducer with Contextual Adapter 基础上进行大量实验，证明了所提出的方法不仅能降低 WER，而且在偏置短语数量增加时仍然保持其有效性。

Abstract

In this paper, we propose a guided attention (GA) auxiliary training loss, which improves the effectiveness and robustness of automatic speech recognition (ASR) →

guided attention automatic speech recognition contextual biasing transducer loss cross attention

发现论文，激发创造

具上下文的端到端自动语音识别及中间偏置损失

提出了一种在编码器中使用显式偏置损失作为辅助任务的方法，以更好地将文本令牌或音频帧与预期目标对齐，并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率（U-WER），从而实现更强大的网络。

Jun, 2024

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

研究提出一种轻量级字符表示的方法来编码精细的发音特征，以提高基于声学相似性的情境偏倚，在与音频和情境实体相关的语义上执行情境偏倚，并集成预训练的神经语言模型（NLM）。在 Librispeech 数据集上进行的实验表明，在不同的情境偏见列表大小上，采用提出的声学偏倚和语义偏倚方法，相对于基线情境模型，Conformer Transducer 模型相对 WER 提高了 4.62％-9.26％。在大规模的内部数据集上，相对于基准模型，相对 WER 的提高为 7.91％。在 Librispeech 稀有单词和内部测试集上，尾部话语的表现甚至更加显著，分别实现了 36.80％和 23.40％的相对 WER 改善。

May, 2023

基于转录器的流式语音识别中的自适应上下文偏置

提出了一个基于上下文感知的变形器转录方法的自适应上下文偏置方法，通过使用有偏的编码器和预测器嵌入来执行流媒体预测，动态地开关偏差列表，以适应个性化和常见情况，实验证明相对于基线，它可以在常见情况下减少 WER 和 CER 达到 6.7％和 20.7％，在个性化情况下对性能影响极小，同时保持快速的推理管道。

Jun, 2023

使用 Whisper 和 GPT-2 技术进行情境偏见调整是否仍然有效？

本文研究了对 Whisper 和 GPT-2 进行神经语境偏置的有效性，发现使用特定的偏置列表来帮助 Whisper 和 GPT-2 减少数据集中不频繁且性能差的单词可以显著降低错误率。在应用于特定领域的数据时，语境偏置更加有效，并可以提高 Whisper 和 GPT-2 的性能，同时不失其一般性。

Jun, 2023

面向上下文的语音识别变换器转录器

本文介绍了一种基于上下文的自动语音识别系统：context-aware transformer transducer (CATT) 网络，通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法，取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。

Nov, 2021

增强本地性动态偏置和采样策略用于上下文自动语音识别

通过分析不同的采样策略和相关性图，本文首先对上下文偏置模块的训练进行了探究。其次，引入了邻居注意力机制来进一步优化上下文偏置的输出，实验结果表明相对于基准模型，在 LibriSpeech 数据集和稀有单词评估上平均相对词错误率提升了 25.84%。

Jan, 2024

基于注意力偏置短语增强的情境化自动语音识别

该论文提出了一种基于注意力的上下文偏置方法，利用可编辑的短语列表（称为偏置列表）来实现用户或开发人员的定制化，该方法通过组合偏置短语索引损失和特殊标记来有效地训练，以检测输入语音数据中的偏置短语。此外，为了进一步提高推理过程中的上下文化性能，我们提出了一种基于偏置短语索引概率的偏置短语增强（BPB）束搜索算法。实验结果表明，所提出的方法在 Librispeech-960（英文）和我们的内部（日文）数据集上一致改善了目标短语偏置列表的词错误率和字符错误率。

Jan, 2024

具有上下文短语预测网络的情境化端到端语音识别

本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络，该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失，以辅助训练文本化模型，改善了各种端到端语音识别模型的单词错误率（WER）。

May, 2023

使用引导生成对抗网络在不匹配环境中高效转换声学特征

提出一个新的框架，可以通过运行生成式对抗网络（GAN）生成更好的音频特征，从而提高自动语音识别（ASR）系统的性能，此框架在资源稀缺的环境中非常有用。

Oct, 2022

基于树约束指针生成器的上下文 ASR 中减小偏置词误差

本文提出了一种基于 “TCPGen” 的端到端自适应语音识别模型，在训练和测试中引入外部语境信息和偏置词列表，并通过构建符号前缀树和优化偏置词错误率等手段，显著提高了长尾高价值词汇识别准确率，甚至在未出现在已知数据集中的词汇上也取得了较大的进展。

May, 2022