基于树约束指针生成器的上下文 ASR 中减小偏置词误差

May, 2022

基于树约束指针生成器的上下文 ASR 中减小偏置词误差

Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator

Guangzhi Sun, Chao Zhang, Philip C Woodland

TL;DR本文提出了一种基于 “TCPGen” 的端到端自适应语音识别模型，在训练和测试中引入外部语境信息和偏置词列表，并通过构建符号前缀树和优化偏置词错误率等手段，显著提高了长尾高价值词汇识别准确率，甚至在未出现在已知数据集中的词汇上也取得了较大的进展。

Abstract

contextual knowledge is essential for reducing speech recognition errors on high-valued long-tail words. This paper proposes a novel tree-constrained pointer generator (→

speech recognition contextual knowledge tcpgen biasing words mbwe

发现论文，激发创造

面向端到端情境语音识别的基于树约束的指针生成器

提出了一种新的树约束指针生成（TCPGen）组件，以神经符号的方式将偏差性词汇列表融入到基于注意的编码器 - 解码器和跨度端到端自动语音识别模型中。在 Librispeech 语料库上进行了训练和评估，实验结果表明，TCPGen 相对于基线方法始终改进了单词错误率（WER），并且特别在偏差性词汇上实现了显著的 WER 降低。TCPGen 处理 5,000 个偏差词和诱饵是非常有效的，只增加了少量的内存使用和计算成本。

Sep, 2021

基于图神经网络编码的树约束指针生成模型在情境语音识别中的应用

本文提出了一种将图神经网络编码应用于基于树约束指针生成器的端到端语音识别系统中，以便用上文本知识中的偏见词，结果显示与原始模型相比，相对 WER 降低了约 15%。

Jul, 2022

使用 Whisper 和 GPT-2 技术进行情境偏见调整是否仍然有效？

本文研究了对 Whisper 和 GPT-2 进行神经语境偏置的有效性，发现使用特定的偏置列表来帮助 Whisper 和 GPT-2 减少数据集中不频繁且性能差的单词可以显著降低错误率。在应用于特定领域的数据时，语境偏置更加有效，并可以提高 Whisper 和 GPT-2 的性能，同时不失其一般性。

Jun, 2023

基于树约束指针生成器的端到端口语理解

利用上下文偏置技术，结合基于树约束指针生成器（TCPGen）的插入偏置模型和插入概率偏置机制（SPB），提出了一种方法来解决端到端口语理解系统中的长尾词问题，该方法对比基线表现，在 SLURP 数据集上实验表明 TCPGen 和 SPB 对言语理解 F1 值具有稳定、显著的提高，特别是在未知实体上的测试也有较好的表现，同时改善了意图分类的准确性。

Oct, 2022

针对基于前缀树的上下文 ASR 的音素感知编码

在语音识别应用中，通过使用基于音素的编码将 Tree-constrained Pointer Generator (TCPGen) 扩展，可以更好地识别发音不寻常的词，我们的 ASR 实验结果表明，这种音素感知编码优于传统的字母编码。

Dec, 2023

CTC 和转录器 ASR 模型的快速上下文偏见和基于 CTC 的词识别器

通过 CTC-based Word Spotter 实现快速的上下文偏置识别，加速上下文偏置识别的同时提高了 F-score 和 WER，方法已经在 NVIDIA NeMo toolkit 中提供。

Jun, 2024

使用树形约束的指针生成器图神经网络进行上下文 ASR

本文提出了一种基于图神经网络编码的端到端上下文自动语音识别新方法，通过树限制指针生成方法，将上下文知识中的偏向词整合到识别过程中，显著降低了词误率。

May, 2023

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

研究提出一种轻量级字符表示的方法来编码精细的发音特征，以提高基于声学相似性的情境偏倚，在与音频和情境实体相关的语义上执行情境偏倚，并集成预训练的神经语言模型（NLM）。在 Librispeech 数据集上进行的实验表明，在不同的情境偏见列表大小上，采用提出的声学偏倚和语义偏倚方法，相对于基线情境模型，Conformer Transducer 模型相对 WER 提高了 4.62％-9.26％。在大规模的内部数据集上，相对于基准模型，相对 WER 的提高为 7.91％。在 Librispeech 稀有单词和内部测试集上，尾部话语的表现甚至更加显著，分别实现了 36.80％和 23.40％的相对 WER 改善。

May, 2023

具上下文的端到端自动语音识别及中间偏置损失

提出了一种在编码器中使用显式偏置损失作为辅助任务的方法，以更好地将文本令牌或音频帧与预期目标对齐，并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率（U-WER），从而实现更强大的网络。

Jun, 2024

用引导注意力改进 ASR 上下文偏见

通过引入引导注意力（GA）辅助训练损失，本研究提出了一种改进自动语音识别（ASR）上下文偏置的有效性和鲁棒性的方法，该方法在不引入额外参数的情况下改善了偏置短语数量增加时上下文偏置所能带来的字错误率（WER）减少。通过在 Conformer Transducer with Contextual Adapter 基础上进行大量实验，证明了所提出的方法不仅能降低 WER，而且在偏置短语数量增加时仍然保持其有效性。

Jan, 2024