何时需要数十亿字的预训练数据？

Nov, 2020

何时需要数十亿字的预训练数据？

When Do You Need Billions of Words of Pretraining Data?

Yian Zhang, Alex Warstadt, Haau-Sing Li, Samuel R. Bowman

TL;DR通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Abstract

nlp is currently dominated by general-purpose pretrained language models like RoBERTa, which achieve strong performance on NLU tasks through pretraining on billions of words. But what exact knowledge or skills do

nlp pretrained language models transformer lms linguistic ability downstream nlu tasks

发现论文，激发创造

语言模型需要多少预训练数据才能学习语法？

本研究探讨了预训练数据大小对 RoBERTa 模型的句法能力及其在下游应用中的影响，并分析了训练此类模型的成本效益权衡。结果显示，虽然预训练数据大小的增加会显著提高模型的句法能力及在下游任务中表现，但这也带来了更高的经济和环境成本。

Sep, 2021

使用类人开发数据文集预训练 LLMs

利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。

Nov, 2023

测试集上的预训练就足够了

通过精心策划的数据预训练，使用新颖的数据混合集，我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现，并打破了已知基础模型的记录，同时还展现了前所未有的准确预测下游评估基准的能力。

Sep, 2023

是否预训练：探究在资源丰富任务中预训练的益处

本文研究预训练自然语言处理模型在下游任务中使用的训练样本数量与性能之间的关系，研究发现，随着训练样本的数量达到百万级别，使用 BERT 预训练模型和从头开始训练的 LSTM 模型之间的准确度差距缩小到不到 1％，暗示随着监督数据规模的增大，MLM 模型可能会达到递减的收益点。

Jun, 2020

大型预训练语言模型在自然语言处理中的最新研究进展：综述

本文介绍了使用预训练和微调、提示或文本生成方法解决 NLP 任务的大型预训练基于 transformer 的语言模型，以及使用预训练语言模型生成数据进行训练或其他目的的方法，并讨论未来研究的限制和建议方向。

Nov, 2021

从零开始的 NLP：一个简单高效的无大规模预训练的框架

提出了一种简单而高效的学习框架 TLM, 该框架不依赖于大规模预训练的语言模型，通过使用任务数据作为查询提取一小部分通用语料库，并从头开始联合优化任务目标和语言建模目标，在四个领域的八个分类数据集上实现了与预训练语言模型相当或更好的结果，而将训练 FLOPs 减少了两个数量级。

Nov, 2021

学习哪些特征重要：RoBERTa 最终掌握语言一般性

这篇研究介绍了一种新的英文诊断集合 MSGs，通过测试预训练模型在微调时是否更偏向于使用语言特征而非表层泛化。研究发现，模型可以在很少的预训练数据情况下学会语言特征，但需要更多数据来学习偏向于使用语言泛化。最终，经过约 30B 个单词的预训练数据，RoBERTa-base 表现出了语言偏差，但我们认为自我监督预训练是学习有用的归纳偏差的有效方法，但是需要改善模型学习哪些特征重要的速度。

Oct, 2020

Alexa 教师模型：自然语言理解系统的预训练和蒸馏多十亿参数编码器

本文介绍了一个在虚拟助手 NLU 组件中进行的从预训练到蒸馏的实验，使用了介于 700M 到 9.3B 之间的参数数量不同的编码器，并从中收缩了介于 17M-170M 的较小模型，发现在预训练部分使用领域内数据可以提高模型的性能。评估结果表明，最终训练的模型性能比 DistillBERT 和 XLM-R 要好。

Jun, 2022

大型语言模型除语言外还能学到什么？

本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对 19 个多样化的非语言任务进行试验，包括量化计算、识别正则表达式和对字符串的推理，我们发现预先训练的模型明显优于可比较的非预先训练的神经模型，即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时，我们进一步探讨了不同文本领域对用户体验的影响，并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下，也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。

Oct, 2022

规模化波兰变压器语言模型预训练

本文介绍了两个基于流行的 BERT 架构的波兰语语言模型，经过评估，我们的模型在 13 个波兰语语言任务中取得了显著的提高。

Jun, 2020