基于注意力的语音识别系统需要多少上下文?
调查了自监督学习中使用多少上下文能够实现高质量的预训练声学模型,发现在训练和推理过程中,40ms 的上下文能够达到最佳的音素可辨识性,而太多上下文则会显著降低表示质量,并且这种模式在监督 ASR 中也适用,当预训练表示被用作冻结输入特征时。研究结果指出了当前上游架构设计上可能需要进行的变化以更好地支持各种下游任务。
Dec, 2023
本文研究发现,使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别(ASR)的 word error rate,其中 lexicon 对于改善 ASR 性能没有多大作用,而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。
Feb, 2023
研究通过束搜索集成具有长期上下文的变压器语言模型进行跨话语语音模型的解码,并与 n-best 重排序的结果进行比较。结果表明,束搜索允许更好地利用跨话语语境。
Jun, 2023
本文提出了一种新颖的自动语音识别 (CLAS) 系统,它对上下文短语进行深层次融合,对 ASR 进行了联合优化,并且在测试阶段可以识别未知词汇,相对于传统的浅层融合方法,提高了 68% 的相对识别率。
Aug, 2018
本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K,重点关注数据工程。我们假设长篇背景建模,特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得,而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况(例如,从 4K 延伸到 128K)。我们研究了持续预训练的 “数量” 和 “质量”:(1)对于数量,我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息;(2)对于质量,我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说,我们发现像书籍这样的特定领域上的长数据简单上采样,这是现有工作的常见做法,会得到次优性能,而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型,并缩小了与 GPT-4 128K 等前沿模型之间的差距。
Feb, 2024
本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法,并通过在先前话语的历史向量上应用特殊设计的注意力池化层,来优化了基于 Conformer-Transducer 编码器的 ASR 系统,在 1000 小时的 Gigaspeech 语音语料上进行了实验,结果表明相对于仅使用话语内部语境的基线模型,该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低(相对降低了 4.3% 至 3.1%) 的效果。
Jun, 2023