基于树约束指针生成器的上下文 ASR 中减小偏置词误差
提出了一种新的树约束指针生成(TCPGen)组件,以神经符号的方式将偏差性词汇列表融入到基于注意的编码器 - 解码器和跨度端到端自动语音识别模型中。在 Librispeech 语料库上进行了训练和评估,实验结果表明,TCPGen 相对于基线方法始终改进了单词错误率(WER),并且特别在偏差性词汇上实现了显著的 WER 降低。TCPGen 处理 5,000 个偏差词和诱饵是非常有效的,只增加了少量的内存使用和计算成本。
Sep, 2021
本文提出了一种将图神经网络编码应用于基于树约束指针生成器的端到端语音识别系统中,以便用上文本知识中的偏见词,结果显示与原始模型相比,相对 WER 降低了约 15%。
Jul, 2022
本文研究了对 Whisper 和 GPT-2 进行神经语境偏置的有效性,发现使用特定的偏置列表来帮助 Whisper 和 GPT-2 减少数据集中不频繁且性能差的单词可以显著降低错误率。在应用于特定领域的数据时,语境偏置更加有效,并可以提高 Whisper 和 GPT-2 的性能,同时不失其一般性。
Jun, 2023
利用上下文偏置技术,结合基于树约束指针生成器(TCPGen)的插入偏置模型和插入概率偏置机制(SPB),提出了一种方法来解决端到端口语理解系统中的长尾词问题,该方法对比基线表现,在 SLURP 数据集上实验表明 TCPGen 和 SPB 对言语理解 F1 值具有稳定、显著的提高,特别是在未知实体上的测试也有较好的表现,同时改善了意图分类的准确性。
Oct, 2022
在语音识别应用中,通过使用基于音素的编码将 Tree-constrained Pointer Generator (TCPGen) 扩展,可以更好地识别发音不寻常的词,我们的 ASR 实验结果表明,这种音素感知编码优于传统的字母编码。
Dec, 2023
通过 CTC-based Word Spotter 实现快速的上下文偏置识别,加速上下文偏置识别的同时提高了 F-score 和 WER,方法已经在 NVIDIA NeMo toolkit 中提供。
Jun, 2024
本文提出了一种基于图神经网络编码的端到端上下文自动语音识别新方法,通过树限制指针生成方法,将上下文知识中的偏向词整合到识别过程中,显著降低了词误率。
May, 2023
研究提出一种轻量级字符表示的方法来编码精细的发音特征,以提高基于声学相似性的情境偏倚,在与音频和情境实体相关的语义上执行情境偏倚,并集成预训练的神经语言模型(NLM)。在 Librispeech 数据集上进行的实验表明,在不同的情境偏见列表大小上,采用提出的声学偏倚和语义偏倚方法,相对于基线情境模型,Conformer Transducer 模型相对 WER 提高了 4.62%-9.26%。在大规模的内部数据集上,相对于基准模型,相对 WER 的提高为 7.91%。在 Librispeech 稀有单词和内部测试集上,尾部话语的表现甚至更加显著,分别实现了 36.80%和 23.40%的相对 WER 改善。
May, 2023
提出了一种在编码器中使用显式偏置损失作为辅助任务的方法,以更好地将文本令牌或音频帧与预期目标对齐,并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率(U-WER),从而实现更强大的网络。
Jun, 2024
通过引入引导注意力(GA)辅助训练损失,本研究提出了一种改进自动语音识别(ASR)上下文偏置的有效性和鲁棒性的方法,该方法在不引入额外参数的情况下改善了偏置短语数量增加时上下文偏置所能带来的字错误率(WER)减少。通过在 Conformer Transducer with Contextual Adapter 基础上进行大量实验,证明了所提出的方法不仅能降低 WER,而且在偏置短语数量增加时仍然保持其有效性。
Jan, 2024