基于 Trie 深度偏置和浅层融合的上下文流式端到端语音识别

Apr, 2021

基于 Trie 深度偏置和浅层融合的上下文流式端到端语音识别

Contextualized Streaming End-to-End Speech Recognition with Trie-Based Deep Biasing and Shallow Fusion

Duc Le, Mahaveer Jain, Gil Keren, Suyoun Kim, Yangyang Shi...

TL;DR提出了一种结合浅层融合、字典树和神经网络语言模型的方法，来利用动态的上下文信息，相比于已有的上下文偏置方法，这种方法最终的系统轻量且模块化，可以实现快速修改而无需重新训练，同时在开放域和约束化环境下都取得了显著的词错误率优化，特别是对于那些包含大部分稀有长尾词汇的语音转文字任务有着更高的表现。

Abstract

How to leverage dynamic contextual information in end-to-end speech recognition has remained an active research area. Previous solutions to this problem were either designed for specialized use cases that did not generalize well to open-domain scenarios, did not scale to large biasing

end-to-end speech recognition contextual information neural network language model shallow fusion long-tail words

发现论文，激发创造

具有上下文短语预测网络的情境化端到端语音识别

本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络，该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失，以辅助训练文本化模型，改善了各种端到端语音识别模型的单词错误率（WER）。

May, 2023

具上下文的端到端自动语音识别及中间偏置损失

提出了一种在编码器中使用显式偏置损失作为辅助任务的方法，以更好地将文本令牌或音频帧与预期目标对齐，并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率（U-WER），从而实现更强大的网络。

Jun, 2024

上下文化动态词汇的自动语音识别

通过使用动态词汇表中的短语级别偏置令牌，提出的方法改善了英语和日语数据集上偏置短语在端到端自动语音识别中的性能。

May, 2024

使用备选拼写预测模型提高稀有词汇的语境识别

本文介绍了一个使用上下文偏置列表对 ASR 进行计算的公共基准任务，并提出了一种替代拼写预测模型，它相对于不使用替代拼写的上下文偏置提高了罕见单词的召回率和词汇外单词的召回率。

Sep, 2022

使用 Whisper 和 GPT-2 技术进行情境偏见调整是否仍然有效？

本文研究了对 Whisper 和 GPT-2 进行神经语境偏置的有效性，发现使用特定的偏置列表来帮助 Whisper 和 GPT-2 减少数据集中不频繁且性能差的单词可以显著降低错误率。在应用于特定领域的数据时，语境偏置更加有效，并可以提高 Whisper 和 GPT-2 的性能，同时不失其一般性。

Jun, 2023

统一流式和非流式传输器中的上下文偏置的两阶段上下文单词过滤

本文提出了一种高效的方法来获取高质量的语境词列表，并将其作为上下文信息融合到非流式编码器和解码器中，以生成最终的识别结果，实验证明与基线系统相比，相对字符错误率降低了 20% 以上。

Jan, 2023

基于转录器的流式语音识别中的自适应上下文偏置

提出了一个基于上下文感知的变形器转录方法的自适应上下文偏置方法，通过使用有偏的编码器和预测器嵌入来执行流媒体预测，动态地开关偏差列表，以适应个性化和常见情况，实验证明相对于基线，它可以在常见情况下减少 WER 和 CER 达到 6.7％和 20.7％，在个性化情况下对性能影响极小，同时保持快速的推理管道。

Jun, 2023

面向端到端语音识别系统的上下文拼写纠正定制

本研究提出了一种新方法，通过在端到端自动语音识别系统的顶部加入上下文拼写纠错模型，将上下文信息纳入序列到序列拼写纠正模型中，从而提高了识别速度和准确性。

Mar, 2022

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

研究提出一种轻量级字符表示的方法来编码精细的发音特征，以提高基于声学相似性的情境偏倚，在与音频和情境实体相关的语义上执行情境偏倚，并集成预训练的神经语言模型（NLM）。在 Librispeech 数据集上进行的实验表明，在不同的情境偏见列表大小上，采用提出的声学偏倚和语义偏倚方法，相对于基线情境模型，Conformer Transducer 模型相对 WER 提高了 4.62％-9.26％。在大规模的内部数据集上，相对于基准模型，相对 WER 的提高为 7.91％。在 Librispeech 稀有单词和内部测试集上，尾部话语的表现甚至更加显著，分别实现了 36.80％和 23.40％的相对 WER 改善。

May, 2023

神经转换器中的个性化语音识别上下文适配器

本文提出了通过训练神经上下文适配器来实现个性化的自动语音识别（ASR）模型，并表明，相对于浅层融合方法，这种方法不依赖于外部语言模型且性能更好。

May, 2022