神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

May, 2023

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

Robust Acoustic and Semantic Contextual Biasing in Neural Transducers for Speech Recognition

Xuandi Fu, Kanthashree Mysore Sathyendra, Ankur Gandhe, Jing Liu, Grant P. Strimel...

TL;DR研究提出一种轻量级字符表示的方法来编码精细的发音特征，以提高基于声学相似性的情境偏倚，在与音频和情境实体相关的语义上执行情境偏倚，并集成预训练的神经语言模型（NLM）。在 Librispeech 数据集上进行的实验表明，在不同的情境偏见列表大小上，采用提出的声学偏倚和语义偏倚方法，相对于基线情境模型，Conformer Transducer 模型相对 WER 提高了 4.62％-9.26％。在大规模的内部数据集上，相对于基准模型，相对 WER 的提高为 7.91％。在 Librispeech 稀有单词和内部测试集上，尾部话语的表现甚至更加显著，分别实现了 36.80％和 23.40％的相对 WER 改善。

Abstract

Attention-based contextual biasing approaches have shown significant improvements in the recognition of generic and/or personal rare-words in end-to-end automatic speech recognition (E2E ASR) systems like neural transducers. These approaches employ cross-attention to bias the model tow

end-to-end automatic speech recognition acoustic biasing semantic biasing neural language model conformer transducer

发现论文，激发创造

基于转录器的流式语音识别中的自适应上下文偏置

提出了一个基于上下文感知的变形器转录方法的自适应上下文偏置方法，通过使用有偏的编码器和预测器嵌入来执行流媒体预测，动态地开关偏差列表，以适应个性化和常见情况，实验证明相对于基线，它可以在常见情况下减少 WER 和 CER 达到 6.7％和 20.7％，在个性化情况下对性能影响极小，同时保持快速的推理管道。

Jun, 2023

具上下文的端到端自动语音识别及中间偏置损失

提出了一种在编码器中使用显式偏置损失作为辅助任务的方法，以更好地将文本令牌或音频帧与预期目标对齐，并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率（U-WER），从而实现更强大的网络。

Jun, 2024

面向上下文的语音识别变换器转录器

本文介绍了一种基于上下文的自动语音识别系统：context-aware transformer transducer (CATT) 网络，通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法，取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。

Nov, 2021

通过音素特征和纯文本数据在流式传导语音变调中改进大规模深度偏差

通过深度偏置识别稀有单词或上下文实体可以提高 Transducer 的识别性能，这在实际应用中尤为重要，特别是对于流式自动语音识别（ASR）。然而，在深度偏置中采用大规模稀有单词仍然具有挑战性，因为当存在更多干扰者并且偏置列表中存在相似字母序列的单词时，性能会显著下降。在本文中，我们将 Transducers 中的稀有单词的音素和文本信息相结合，以区分发音或拼写相似的单词。此外，训练包含更多稀有单词的仅文本数据有助于大规模深度偏置。在 LibriSpeech 语料库上的实验证明，所提出的方法在不同规模和水平的偏置列表的稀有单词错误率上实现了最先进的性能。

Nov, 2023

面向端到端语音识别系统的上下文拼写纠正定制

本研究提出了一种新方法，通过在端到端自动语音识别系统的顶部加入上下文拼写纠错模型，将上下文信息纳入序列到序列拼写纠正模型中，从而提高了识别速度和准确性。

Mar, 2022

延迟 NAM: 通过延迟上下文编码实现低延迟的 Top-K 上下文注入非流式自动语音识别

移动轻量级短语选择传递至上下文编码器前，可以将速度提高至 16.1 倍，并使得偏置能够适用于包含最多 20K 短语的情况，而最大的预解码延迟不超过 33ms。通过短语和词元级交叉熵损失的加入，我们的技术相较于没有这些损失和轻量级短语选择传递的基准技术，还获得了最多 37.5% 的相对词错误率降低。

Apr, 2024

具有上下文短语预测网络的情境化端到端语音识别

本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络，该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失，以辅助训练文本化模型，改善了各种端到端语音识别模型的单词错误率（WER）。

May, 2023

神经转换器中的个性化语音识别上下文适配器

本文提出了通过训练神经上下文适配器来实现个性化的自动语音识别（ASR）模型，并表明，相对于浅层融合方法，这种方法不依赖于外部语言模型且性能更好。

May, 2022

基于注意力偏置短语增强的情境化自动语音识别

该论文提出了一种基于注意力的上下文偏置方法，利用可编辑的短语列表（称为偏置列表）来实现用户或开发人员的定制化，该方法通过组合偏置短语索引损失和特殊标记来有效地训练，以检测输入语音数据中的偏置短语。此外，为了进一步提高推理过程中的上下文化性能，我们提出了一种基于偏置短语索引概率的偏置短语增强（BPB）束搜索算法。实验结果表明，所提出的方法在 Librispeech-960（英文）和我们的内部（日文）数据集上一致改善了目标短语偏置列表的词错误率和字符错误率。

Jan, 2024

CTC 和转录器 ASR 模型的快速上下文偏见和基于 CTC 的词识别器

通过 CTC-based Word Spotter 实现快速的上下文偏置识别，加速上下文偏置识别的同时提高了 F-score 和 WER，方法已经在 NVIDIA NeMo toolkit 中提供。

Jun, 2024