上下文大小对语音预训练的影响：更大并不总是更好

Dec, 2023

上下文大小对语音预训练的影响：更大并不总是更好

Bigger is not Always Better: The Effect of Context Size on Speech Pre-Training

Sean Robertson, Ewan Dunbar

TL;DR调查了自监督学习中使用多少上下文能够实现高质量的预训练声学模型，发现在训练和推理过程中，40ms 的上下文能够达到最佳的音素可辨识性，而太多上下文则会显著降低表示质量，并且这种模式在监督 ASR 中也适用，当预训练表示被用作冻结输入特征时。研究结果指出了当前上游架构设计上可能需要进行的变化以更好地支持各种下游任务。

Abstract

It has been generally assumed in the automatic speech recognition (asr) literature that it is better for models to have access to wider context windows. Yet, many of the potential reasons this might be true in th

automatic speech recognition asr self-supervised learning acoustic models pre-trained representations

发现论文，激发创造

基于注意力的语音识别系统需要多少上下文？

使用超过 30 秒的声学上下文来训练语音识别模型在文献中很少见，并且缺乏深入研究。本文通过对超长的声学和语言模型进行训练和评估的序列长度进行了研究，结果表明使用大约 80 秒的声学上下文进行训练可以相对提高 14.9% 的性能，并且与当前最先进的系统相比，通过长上下文转换器语言模型的系统组合可以得到具有竞争力的结果。

Oct, 2023

远距离语音识别的自动上下文窗口组合

本研究探讨了基于深度学习的远程语音识别中，非对称上下文窗口的机制，并提出了一种新的基于梯度分析的自动上下文窗口组合方法，结果表明此方法能够减少冗余帧配置，在混响环境下提供有效的语音识别性能。

May, 2018

批处理大小对比自我监督语音表示学习的影响

研究表明，在语音领域中，基于批量大小进行的基础模型预训练可显著提高模型质量，但需注意稳定性和有效性的界限，同时需要关注批量大小和迭代次数两个因素对预训练模型质量的影响，此研究对于选取有效的训练条件以及在自监督学习中以固定数据量进行基准测试提供了指导。

Feb, 2024

BigSSL：大规模半监督学习在自动语音识别中的探索前沿

使用预先训练、自我训练和模型规模扩大的方法，利用大型、多样化的未标记数据集，我们取得了一系列使用巨型自动语音识别（ASR）模型的结果，表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中，通过微调一个 80 亿参数的预训练 Conformer 模型，我们可以实现仅有 3％的训练数据即可达到 SoTA 性能，并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益，涵盖了许多语音领域的公共基准测试，并跨越了多个数据集大小的数量级，并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。

Sep, 2021

面向扩展语言模型至 128K 上下文的数据工程

本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K，重点关注数据工程。我们假设长篇背景建模，特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得，而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况（例如，从 4K 延伸到 128K）。我们研究了持续预训练的 “数量” 和 “质量”：（1）对于数量，我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息；（2）对于质量，我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说，我们发现像书籍这样的特定领域上的长数据简单上采样，这是现有工作的常见做法，会得到次优性能，而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型，并缩小了与 GPT-4 128K 等前沿模型之间的差距。

Feb, 2024

大规模语言模型语境学习中预训练语料对效果的影响

研究了韩国中心型 GPT-3 模型 HyperCLOVA 中的上下文零样本和少样本学习，发现性能主要取决于语料库域源和预训练语料库的大小，可以通过组合多个语料库预先训练获得上下文学习能力.

Apr, 2022

上下文对语言模型事实预测的影响

本论文研究了在大规模无监督文本语料库上预训练的语言模型，结合信息检索系统以纯无监督方式来增强预训练语言模型，并成功提高了其零样本缺失式问答系统的性能，尤其通过使用不同的分隔符处理查询和上下文，让 BERT 能够更好的判断是否匹配上下文从而增加准确性和鲁棒性。

May, 2020

利用大型预训练模型实现低资源语音识别的高效使用

本研究探讨了在越南语和德语的医疗领域低资源对话电话语音语料库中使用无监督方法进行预训练，并讨论了如何适应实际的电话任务，包括带宽传输和不同的数据条件，该方法超过了基线 22% 的相对性能。

Oct, 2022

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

并行上下文窗口提高大型语言模型的上下文学习能力

本文提出了一种名为 Parallel Context Windows (PCW) 的方法，可缓解任何现成的 LLM 的上下文窗口限制，该方法通过将长上下文分成适合于模型的块（“窗口”）来限制注意机制的应用范围，并在窗口之间重用位置嵌入。我们在模型的大小范围内测试了 PCW 方法，并为具有不同输入和输出空间的任务展示了实质性的改进。该结果为研究将 Parallel Context Windows 应用于其他需要长文本序列的设置提供了动机。

Dec, 2022