何时需要数十亿字的预训练数据?
本研究探讨了预训练数据大小对 RoBERTa 模型的句法能力及其在下游应用中的影响,并分析了训练此类模型的成本效益权衡。结果显示,虽然预训练数据大小的增加会显著提高模型的句法能力及在下游任务中表现,但这也带来了更高的经济和环境成本。
Sep, 2021
利用与儿童所见的单词数量大致相同的单词数量,我们对大型语言模型进行预训练和评估,以学习上下文词表示,其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。
Nov, 2023
通过精心策划的数据预训练,使用新颖的数据混合集,我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现,并打破了已知基础模型的记录,同时还展现了前所未有的准确预测下游评估基准的能力。
Sep, 2023
本文研究预训练自然语言处理模型在下游任务中使用的训练样本数量与性能之间的关系,研究发现,随着训练样本的数量达到百万级别,使用 BERT 预训练模型和从头开始训练的 LSTM 模型之间的准确度差距缩小到不到 1%,暗示随着监督数据规模的增大,MLM 模型可能会达到递减的收益点。
Jun, 2020
本文介绍了使用预训练和微调、提示或文本生成方法解决 NLP 任务的大型预训练基于 transformer 的语言模型,以及使用预训练语言模型生成数据进行训练或其他目的的方法,并讨论未来研究的限制和建议方向。
Nov, 2021
提出了一种简单而高效的学习框架 TLM, 该框架不依赖于大规模预训练的语言模型,通过使用任务数据作为查询提取一小部分通用语料库,并从头开始联合优化任务目标和语言建模目标,在四个领域的八个分类数据集上实现了与预训练语言模型相当或更好的结果,而将训练 FLOPs 减少了两个数量级。
Nov, 2021
这篇研究介绍了一种新的英文诊断集合 MSGs,通过测试预训练模型在微调时是否更偏向于使用语言特征而非表层泛化。研究发现,模型可以在很少的预训练数据情况下学会语言特征,但需要更多数据来学习偏向于使用语言泛化。最终,经过约 30B 个单词的预训练数据,RoBERTa-base 表现出了语言偏差,但我们认为自我监督预训练是学习有用的归纳偏差的有效方法,但是需要改善模型学习哪些特征重要的速度。
Oct, 2020
本文介绍了一个在虚拟助手 NLU 组件中进行的从预训练到蒸馏的实验,使用了介于 700M 到 9.3B 之间的参数数量不同的编码器,并从中收缩了介于 17M-170M 的较小模型,发现在预训练部分使用领域内数据可以提高模型的性能。评估结果表明,最终训练的模型性能比 DistillBERT 和 XLM-R 要好。
Jun, 2022
本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对 19 个多样化的非语言任务进行试验,包括量化计算、识别正则表达式和对字符串的推理,我们发现预先训练的模型明显优于可比较的非预先训练的神经模型,即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时,我们进一步探讨了不同文本领域对用户体验的影响,并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下,也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。
Oct, 2022