上下文化动态词汇的自动语音识别
该论文提出了一种基于注意力的上下文偏置方法,利用可编辑的短语列表(称为偏置列表)来实现用户或开发人员的定制化,该方法通过组合偏置短语索引损失和特殊标记来有效地训练,以检测输入语音数据中的偏置短语。此外,为了进一步提高推理过程中的上下文化性能,我们提出了一种基于偏置短语索引概率的偏置短语增强(BPB)束搜索算法。实验结果表明,所提出的方法在 Librispeech-960(英文)和我们的内部(日文)数据集上一致改善了目标短语偏置列表的词错误率和字符错误率。
Jan, 2024
提出了一种在编码器中使用显式偏置损失作为辅助任务的方法,以更好地将文本令牌或音频帧与预期目标对齐,并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率(U-WER),从而实现更强大的网络。
Jun, 2024
提出了一种结合浅层融合、字典树和神经网络语言模型的方法,来利用动态的上下文信息,相比于已有的上下文偏置方法,这种方法最终的系统轻量且模块化,可以实现快速修改而无需重新训练,同时在开放域和约束化环境下都取得了显著的词错误率优化,特别是对于那些包含大部分稀有长尾词汇的语音转文字任务有着更高的表现。
Apr, 2021
本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络,该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失,以辅助训练文本化模型,改善了各种端到端语音识别模型的单词错误率(WER)。
May, 2023
通过分析不同的采样策略和相关性图,本文首先对上下文偏置模块的训练进行了探究。其次,引入了邻居注意力机制来进一步优化上下文偏置的输出,实验结果表明相对于基准模型,在 LibriSpeech 数据集和稀有单词评估上平均相对词错误率提升了 25.84%。
Jan, 2024
本研究提出了一种新方法,通过在端到端自动语音识别系统的顶部加入上下文拼写纠错模型,将上下文信息纳入序列到序列拼写纠正模型中,从而提高了识别速度和准确性。
Mar, 2022
本文介绍了一个使用上下文偏置列表对 ASR 进行计算的公共基准任务,并提出了一种替代拼写预测模型,它相对于不使用替代拼写的上下文偏置提高了罕见单词的召回率和词汇外单词的召回率。
Sep, 2022
研究提出一种轻量级字符表示的方法来编码精细的发音特征,以提高基于声学相似性的情境偏倚,在与音频和情境实体相关的语义上执行情境偏倚,并集成预训练的神经语言模型(NLM)。在 Librispeech 数据集上进行的实验表明,在不同的情境偏见列表大小上,采用提出的声学偏倚和语义偏倚方法,相对于基线情境模型,Conformer Transducer 模型相对 WER 提高了 4.62%-9.26%。在大规模的内部数据集上,相对于基准模型,相对 WER 的提高为 7.91%。在 Librispeech 稀有单词和内部测试集上,尾部话语的表现甚至更加显著,分别实现了 36.80%和 23.40%的相对 WER 改善。
May, 2023
通过深度偏置识别稀有单词或上下文实体可以提高 Transducer 的识别性能,这在实际应用中尤为重要,特别是对于流式自动语音识别(ASR)。然而,在深度偏置中采用大规模稀有单词仍然具有挑战性,因为当存在更多干扰者并且偏置列表中存在相似字母序列的单词时,性能会显著下降。在本文中,我们将 Transducers 中的稀有单词的音素和文本信息相结合,以区分发音或拼写相似的单词。此外,训练包含更多稀有单词的仅文本数据有助于大规模深度偏置。在 LibriSpeech 语料库上的实验证明,所提出的方法在不同规模和水平的偏置列表的稀有单词错误率上实现了最先进的性能。
Nov, 2023
本文研究了对 Whisper 和 GPT-2 进行神经语境偏置的有效性,发现使用特定的偏置列表来帮助 Whisper 和 GPT-2 减少数据集中不频繁且性能差的单词可以显著降低错误率。在应用于特定领域的数据时,语境偏置更加有效,并可以提高 Whisper 和 GPT-2 的性能,同时不失其一般性。
Jun, 2023