测试集上的预训练就足够了
我们介绍了 Phi-1,这是一种新的大型代码语言模型,比现有的模型要小得多:Phi-1 是一种基于 Transformer 的模型,具有 13 亿个参数,使用来自 Web 的 “教科书品质” 数据(60 亿个标记)和使用 GPT-3.5 合成生成的教科书和练习进行了为期 4 天的训练。尽管规模较小,Phi-1 在 HumanEval 上的 pass@1 准确率为 50.6%,在 MBPP 上为 55.5%。与 phi-1-base(我们的模型在微调阶段之前)和具有相同工艺流程的 phi-1-small(具有 3.5 亿个参数的较小模型)相比,它还展示了令人惊讶的 emergent 属性,虽然仍然实现了 45%的 HumanEval。
Jun, 2023
通过四种探究方法,我们发现语言模型只需要大约 100M 的单词量,就能够可靠地编码大多数句法和语义特征,而大量的数据需要用来获得足够的常识和其他技能,以掌握典型的下游 NLU 任务。
Nov, 2020
通过对 Transformer-based 语言模型的研究,提出了 phi-1.5—— 一个具有 13 亿参数的模型,其在自然语言任务上的性能与大五倍的模型相当,在更复杂的推理任务上超过了大多数非前沿的模型,同时避免了存在网络数据的问题,并支持开源以促进进一步研究。
Sep, 2023
提出了一种简单而高效的学习框架 TLM, 该框架不依赖于大规模预训练的语言模型,通过使用任务数据作为查询提取一小部分通用语料库,并从头开始联合优化任务目标和语言建模目标,在四个领域的八个分类数据集上实现了与预训练语言模型相当或更好的结果,而将训练 FLOPs 减少了两个数量级。
Nov, 2021
通过使用预先在自然语言或图像数据上进行训练的 Transformer 模型,并通过最小修改进行微调,我们在时序预测任务上评估了 Frozen Pretrained Transformer (FPT) 的效果,并发现其性能在跨模态时序预测任务中可以与同模态微调相媲美甚至处于最前沿状态。
Feb, 2023
通过使用机器翻译创建合成数据(Translationese)预训练语言模型(LMs),本研究探讨了将 Translationese 作为一种用于预训练语言模型的可用性。我们以英语和印度语为例,将网络抓取的单语文档翻译成目标语言,然后在这些合成数据(synthetic)上用含有 2800 万和 8500 万参数的语言模型进行训练。实验证明,在下游自然语言理解和生成任务中,与基于干净数据进行预训练的语言模型相比,我们的模型性能仅差 3.56%(自然语言理解任务)和 1.51%(自然语言生成任务)。此外,我们提出了使用基于干净数据进行预训练的轻量级 TinyLMs 有效过滤合成数据的方法,从而显著提高模型性能。我们还发现,在一个微小比例(10%)的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集 IndicMonoDoc 是最大的单语文档级语料库,希望能够弥补英语和非英语大型语言模型性能差距。
Mar, 2024
本文介绍了一种有力的方法,将事先训练好的语言模型(LMs)与神经机器翻译(NMT)相结合,以解决当前 LM 微调应用于资源丰富任务时巨大遗忘的难题,并在机器翻译任务中取得了优越的成果。
Aug, 2019
利用与儿童所见的单词数量大致相同的单词数量,我们对大型语言模型进行预训练和评估,以学习上下文词表示,其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。
Nov, 2023
通过 Replaced Token Detection 任务提高训练信号量,我们训练了 Longformer 模型来展示使用更少的计算力可以预训练高效的语言模型,并在长文本摘要任务上取得了很好的性能。
Nov, 2022