测试集上的预训练就足够了

Sep, 2023

Pretraining on the Test Set Is All You Need

Rylan Schaeffer

TL;DR通过精心策划的数据预训练，使用新颖的数据混合集，我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现，并打破了已知基础模型的记录，同时还展现了前所未有的准确预测下游评估基准的能力。

Abstract

Inspired by recent work demonstrating the promise of smaller transformer-based language models pretrained on carefully curated data, we supercharge such approaches by investing heavily in curating a novel, high quality, non-synthetic →

transformer-based language models pretraining data mixture academic benchmarks evaluation

发现论文，激发创造

只需教科书

我们介绍了 Phi-1，这是一种新的大型代码语言模型，比现有的模型要小得多：Phi-1 是一种基于 Transformer 的模型，具有 13 亿个参数，使用来自 Web 的 “教科书品质” 数据（60 亿个标记）和使用 GPT-3.5 合成生成的教科书和练习进行了为期 4 天的训练。尽管规模较小，Phi-1 在 HumanEval 上的 pass@1 准确率为 50.6％，在 MBPP 上为 55.5％。与 phi-1-base（我们的模型在微调阶段之前）和具有相同工艺流程的 phi-1-small（具有 3.5 亿个参数的较小模型）相比，它还展示了令人惊讶的 emergent 属性，虽然仍然实现了 45％的 HumanEval。

Jun, 2023

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

教科书是你所需的唯一 II: phi-1.5 技术报告

通过对 Transformer-based 语言模型的研究，提出了 phi-1.5—— 一个具有 13 亿参数的模型，其在自然语言任务上的性能与大五倍的模型相当，在更复杂的推理任务上超过了大多数非前沿的模型，同时避免了存在网络数据的问题，并支持开源以促进进一步研究。

Sep, 2023

从零开始的 NLP：一个简单高效的无大规模预训练的框架

提出了一种简单而高效的学习框架 TLM, 该框架不依赖于大规模预训练的语言模型，通过使用任务数据作为查询提取一小部分通用语料库，并从头开始联合优化任务目标和语言建模目标，在四个领域的八个分类数据集上实现了与预训练语言模型相当或更好的结果，而将训练 FLOPs 减少了两个数量级。

Nov, 2021

预训练语言模型用于电力时间序列预测

通过使用预先在自然语言或图像数据上进行训练的 Transformer 模型，并通过最小修改进行微调，我们在时序预测任务上评估了 Frozen Pretrained Transformer (FPT) 的效果，并发现其性能在跨模态时序预测任务中可以与同模态微调相媲美甚至处于最前沿状态。

Feb, 2023

建立预训练语言模型的方法：无数据？别担心，采用翻译语言

通过使用机器翻译创建合成数据（Translationese）预训练语言模型（LMs），本研究探讨了将 Translationese 作为一种用于预训练语言模型的可用性。我们以英语和印度语为例，将网络抓取的单语文档翻译成目标语言，然后在这些合成数据（synthetic）上用含有 2800 万和 8500 万参数的语言模型进行训练。实验证明，在下游自然语言理解和生成任务中，与基于干净数据进行预训练的语言模型相比，我们的模型性能仅差 3.56％（自然语言理解任务）和 1.51％（自然语言生成任务）。此外，我们提出了使用基于干净数据进行预训练的轻量级 TinyLMs 有效过滤合成数据的方法，从而显著提高模型性能。我们还发现，在一个微小比例（10％）的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集 IndicMonoDoc 是最大的单语文档级语料库，希望能够弥补英语和非英语大型语言模型性能差距。

Mar, 2024

利用 BERT 优化神经机器翻译

本文介绍了一种有力的方法，将事先训练好的语言模型（LMs）与神经机器翻译（NMT）相结合，以解决当前 LM 微调应用于资源丰富任务时巨大遗忘的难题，并在机器翻译任务中取得了优越的成果。

Aug, 2019

使用类人开发数据文集预训练 LLMs

利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。

Nov, 2023

BudgetLongformer：我们能否以低成本从头开始预训练 SotA 法律语言模型？

通过 Replaced Token Detection 任务提高训练信号量，我们训练了 Longformer 模型来展示使用更少的计算力可以预训练高效的语言模型，并在长文本摘要任务上取得了很好的性能。

Nov, 2022

用较少的令牌预训练小型基础语言模型

我们研究了使用继承和训练的简单方法来构建小型基础语言模型的有效性，并通过实验证明其在各种设置中的功效。

Apr, 2024