May, 2023

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

TL;DR研究提出一种轻量级字符表示的方法来编码精细的发音特征,以提高基于声学相似性的情境偏倚,在与音频和情境实体相关的语义上执行情境偏倚,并集成预训练的神经语言模型(NLM)。在 Librispeech 数据集上进行的实验表明,在不同的情境偏见列表大小上,采用提出的声学偏倚和语义偏倚方法,相对于基线情境模型,Conformer Transducer 模型相对 WER 提高了 4.62%-9.26%。在大规模的内部数据集上,相对于基准模型,相对 WER 的提高为 7.91%。在 Librispeech 稀有单词和内部测试集上,尾部话语的表现甚至更加显著,分别实现了 36.80%和 23.40%的相对 WER 改善。