使用 Knuth-Morris-Pratt 匹配算法的上下文偏差
本研究提出了一种新方法,通过在端到端自动语音识别系统的顶部加入上下文拼写纠错模型,将上下文信息纳入序列到序列拼写纠正模型中,从而提高了识别速度和准确性。
Mar, 2022
该论文提出了一种基于注意力的上下文偏置方法,利用可编辑的短语列表(称为偏置列表)来实现用户或开发人员的定制化,该方法通过组合偏置短语索引损失和特殊标记来有效地训练,以检测输入语音数据中的偏置短语。此外,为了进一步提高推理过程中的上下文化性能,我们提出了一种基于偏置短语索引概率的偏置短语增强(BPB)束搜索算法。实验结果表明,所提出的方法在 Librispeech-960(英文)和我们的内部(日文)数据集上一致改善了目标短语偏置列表的词错误率和字符错误率。
Jan, 2024
本文研究了对 Whisper 和 GPT-2 进行神经语境偏置的有效性,发现使用特定的偏置列表来帮助 Whisper 和 GPT-2 减少数据集中不频繁且性能差的单词可以显著降低错误率。在应用于特定领域的数据时,语境偏置更加有效,并可以提高 Whisper 和 GPT-2 的性能,同时不失其一般性。
Jun, 2023
提出了一种在编码器中使用显式偏置损失作为辅助任务的方法,以更好地将文本令牌或音频帧与预期目标对齐,并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率(U-WER),从而实现更强大的网络。
Jun, 2024
通过分析不同的采样策略和相关性图,本文首先对上下文偏置模块的训练进行了探究。其次,引入了邻居注意力机制来进一步优化上下文偏置的输出,实验结果表明相对于基准模型,在 LibriSpeech 数据集和稀有单词评估上平均相对词错误率提升了 25.84%。
Jan, 2024
提出了一个基于上下文感知的变形器转录方法的自适应上下文偏置方法,通过使用有偏的编码器和预测器嵌入来执行流媒体预测,动态地开关偏差列表,以适应个性化和常见情况,实验证明相对于基线,它可以在常见情况下减少 WER 和 CER 达到 6.7%和 20.7%,在个性化情况下对性能影响极小,同时保持快速的推理管道。
Jun, 2023
该研究探讨了大型语言模型(LLMs)中的上下文偏置,其中在二次通过重新评分期间,提供了额外的上下文信息以提升自动语音识别(ASR)性能。研究提议在重新评分期间利用提示方式对 LLM 进行偏置,其中包括偏置列表和少量示例,以作为计算假设得分时的额外信息。除了少量示例学习,该研究还提出了 LLM 的多任务训练,以预测实体类别和下一个标记。为了改进上下文偏置的效率并避免超过 LLM 的最大序列长度,该研究提出了动态提示,其中利用类别标签预测选择最可能的类别,并仅将该类别中的实体用作下一个标记预测的上下文。在内部通话、消息和听写数据集以及 SLUE-Voxpopuli 数据集上进行了字错误率(WER)评估。结果表明,偏置列表和少量示例相对于第一次通过 ASR 可以分别实现 17.8% 和 9.6% 的改善,而多任务训练和动态提示则可以分别实现 20.0% 和 11.3% 的相对 WER 改善。
Sep, 2023
提出了一种结合浅层融合、字典树和神经网络语言模型的方法,来利用动态的上下文信息,相比于已有的上下文偏置方法,这种方法最终的系统轻量且模块化,可以实现快速修改而无需重新训练,同时在开放域和约束化环境下都取得了显著的词错误率优化,特别是对于那些包含大部分稀有长尾词汇的语音转文字任务有着更高的表现。
Apr, 2021
研究提出一种轻量级字符表示的方法来编码精细的发音特征,以提高基于声学相似性的情境偏倚,在与音频和情境实体相关的语义上执行情境偏倚,并集成预训练的神经语言模型(NLM)。在 Librispeech 数据集上进行的实验表明,在不同的情境偏见列表大小上,采用提出的声学偏倚和语义偏倚方法,相对于基线情境模型,Conformer Transducer 模型相对 WER 提高了 4.62%-9.26%。在大规模的内部数据集上,相对于基准模型,相对 WER 的提高为 7.91%。在 Librispeech 稀有单词和内部测试集上,尾部话语的表现甚至更加显著,分别实现了 36.80%和 23.40%的相对 WER 改善。
May, 2023
本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络,该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失,以辅助训练文本化模型,改善了各种端到端语音识别模型的单词错误率(WER)。
May, 2023