基于注意力的语音识别系统需要多少上下文？

Oct, 2023

基于注意力的语音识别系统需要多少上下文？

How Much Context Does My Attention-Based ASR System Need?

Robert Flynn, Anton Ragni

TL;DR使用超过 30 秒的声学上下文来训练语音识别模型在文献中很少见，并且缺乏深入研究。本文通过对超长的声学和语言模型进行训练和评估的序列长度进行了研究，结果表明使用大约 80 秒的声学上下文进行训练可以相对提高 14.9% 的性能，并且与当前最先进的系统相比，通过长上下文转换器语言模型的系统组合可以得到具有竞争力的结果。

Abstract

For the task of speech recognition, the use of more than 30 seconds of acoustic context during training is uncommon, and under-investigated in literature. In this work, we examine the effect of scaling the

speech recognition acoustic context sequence length language models long-context asr system

发现论文，激发创造

上下文大小对语音预训练的影响：更大并不总是更好

调查了自监督学习中使用多少上下文能够实现高质量的预训练声学模型，发现在训练和推理过程中，40ms 的上下文能够达到最佳的音素可辨识性，而太多上下文则会显著降低表示质量，并且这种模式在监督 ASR 中也适用，当预训练表示被用作冻结输入特征时。研究结果指出了当前上游架构设计上可能需要进行的变化以更好地支持各种下游任务。

Dec, 2023

利用支持性文本数据启动有限转录的自动语音识别系统开发

本文研究发现，使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别（ASR）的 word error rate，其中 lexicon 对于改善 ASR 性能没有多大作用，而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。

Feb, 2023

利用跨句语境进行 ASR 解码

研究通过束搜索集成具有长期上下文的变压器语言模型进行跨话语语音模型的解码，并与 n-best 重排序的结果进行比较。结果表明，束搜索允许更好地利用跨话语语境。

Jun, 2023

深度上下文：端到端的上下文语音识别

本文提出了一种新颖的自动语音识别 (CLAS) 系统，它对上下文短语进行深层次融合，对 ASR 进行了联合优化，并且在测试阶段可以识别未知词汇，相对于传统的浅层融合方法，提高了 68% 的相对识别率。

Aug, 2018

具有对话上下文信息的声学到词语模型

直接从声音到单词，利用交际上下文信息的端到端语音识别模型，在 Switchboard 语料库上验证表现优于现有模型。

May, 2019

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

基于注意力机制的语音识别模型

本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Jun, 2015

面向扩展语言模型至 128K 上下文的数据工程

本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K，重点关注数据工程。我们假设长篇背景建模，特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得，而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况（例如，从 4K 延伸到 128K）。我们研究了持续预训练的 “数量” 和 “质量”：（1）对于数量，我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息；（2）对于质量，我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说，我们发现像书籍这样的特定领域上的长数据简单上采样，这是现有工作的常见做法，会得到次优性能，而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型，并缩小了与 GPT-4 128K 等前沿模型之间的差距。

Feb, 2024

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

针对 Conformer 转录器语音识别系统的有效紧凑上下文表示

本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法，并通过在先前话语的历史向量上应用特殊设计的注意力池化层，来优化了基于 Conformer-Transducer 编码器的 ASR 系统，在 1000 小时的 Gigaspeech 语音语料上进行了实验，结果表明相对于仅使用话语内部语境的基线模型，该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低（相对降低了 4.3% 至 3.1%）的效果。

Jun, 2023