压缩语言模型中预训练数据量的重要性

EMNLPOct, 2020

压缩语言模型中预训练数据量的重要性

On the importance of pre-training data volume for compact language models

Vincent Micheli, Martin d'Hoffschmidt, François Fleuret

TL;DR我们研究了预训练数据量对紧凑型语言模型的影响。我们发现，即使只有 100MB 的预训练数据，通过在法语问答数据集（FQuAD）上微调 BERT 模型，都可以得到表现很好的模型。此外，我们还展示了，除了任务特定的语料库，中等数量的预训练数据并不能取得实质性的改进。

Abstract

Recent advances in language modeling have led to computationally intensive and resource-demanding state-of-the-art models. In an effort towards sustainable practices, we study the impact of pre-training data volu

language modeling pre-training data bert-based models french text question answering dataset

发现论文，激发创造

有阅读素养的学生学习更好：关于预训练紧凑模型的重要性

本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系，提出了一种简单而有效的预训练蒸馏算法，分析了模型大小和无标记任务数据属性对其的影响。

Aug, 2019

当小的更小时会发生什么？探究对小数据预训练语言模型进行压缩的影响

压缩技术对小规模数据语言模型的效率和效果具有显著改善作用，证实了对大规模参数化模型的压缩效果的普遍观点同样适用于小规模数据模型。

Apr, 2024

语言模型需要多少预训练数据才能学习语法？

本研究探讨了预训练数据大小对 RoBERTa 模型的句法能力及其在下游应用中的影响，并分析了训练此类模型的成本效益权衡。结果显示，虽然预训练数据大小的增加会显著提高模型的句法能力及在下游任务中表现，但这也带来了更高的经济和环境成本。

Sep, 2021

关于阿拉伯语语言模型预训练中数据规模的重要性

通过在规模庞大、高质量的阿拉伯语语料库上重新训练，我们显著提高了领先的阿拉伯编码器型 BERT-based 和编码器解码器型 T5-based 的性能，表现出同类模型的最新技术结果；我们的分析强烈暗示，预训练数据远远是性能的主要贡献因素，超越其他因素。

Jan, 2024

大型语言模型在学习长尾知识方面面临困难

本文研究了大型语言模型记忆的知识与其预训练数据中信息之间的关系，结果发现语言模型回答基于事实的问题的能力与预训练期间看到的相关问题文档数量有强相关性和因果关系；同时，该研究发现，虽然更大的模型能学习更长尾的知识，但需要将模型规模增加数个数量级才能在缺乏支持数据的问题上实现具有竞争性的问答表现。最后，对相关文档数量依赖进行检索增强，能够有效捕捉长尾知识。

Nov, 2022

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

为低资源语言预训练数据质量和数量：马耳他语新语料库和 BERT 模型

本文分析了使用单语数据进行预训练对于 mBERT 中未包含的低资源语种（如马耳他语）的效果，并研究了新的马耳他语语料库的大小和域对下游任务性能的影响。研究表明，使用混合预训练域往往优于仅使用维基百科文本，并且只有一小部分的马耳他语语料库就足以在任务性能上取得显著提高。此外，本文还预训练并比较了两个模型：从头开始训练的单语 BERT 模型（BERTu）和进一步预训练的多语言 BERT 模型（mBERTu），这两个模型都在各种下游任务上取得了最先进的性能。

May, 2022

面向扩展语言模型至 128K 上下文的数据工程

本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K，重点关注数据工程。我们假设长篇背景建模，特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得，而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况（例如，从 4K 延伸到 128K）。我们研究了持续预训练的 “数量” 和 “质量”：（1）对于数量，我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息；（2）对于质量，我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说，我们发现像书籍这样的特定领域上的长数据简单上采样，这是现有工作的常见做法，会得到次优性能，而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型，并缩小了与 GPT-4 128K 等前沿模型之间的差距。

Feb, 2024

RoBERTa: 一个稳健优化的 BERT 预训练方法

本研究进行了 BERT 预训练的复现研究，并对其关键的超参数和训练数据大小的影响进行了测量，发现 BERT 被显著低估，并且可以超过其之后发布的每个模型的表现，提高了以前被忽视的设计选择的重要性，并引发了对最近报道的改进的疑问。

Jul, 2019

基于 Transformer 模型的法语问答任务的可用性研究

研究通过对 Transformer-based architectures 的改进和优化，尤其是在数据增强、超参数优化和跨语言转移方面，提高了法语低资源情况下的问答表现，并引入了一种紧凑的法语 FrALBERT 模型。

Jul, 2022