数据受限的语言模型的扩展
本研究旨在通过重复预训练数据来加强大型语言模型。然而,该方法容易导致过拟合,除非使用适当的正则化方法,其中最有效的是 dropout。同时,本研究还探索了数据集大小,模型参数和训练目标等因素对多重训练期恶化的影响,以及混合专家方法如何提高密集大型语言模型的计算效率和性能。
May, 2023
基于语言模型的缩放定律,本研究通过建立 104 个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。
Mar, 2024
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
本文研究大型语言模型中反复数据对性能的影响机理,并发现了一个强烈的双下降现象,即重复数据可能导致测试损失在训练中途上升。实验表明,反复数据对模型的性能造成了明显的损害,可能会导致模型从泛化到记忆出现转移。
May, 2022
基于新的缩放定律,我们推测模型性能主要取决于计算经费的使用,而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律,我们预测(a)训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率,(b)假设可用的网络数据集已耗尽,扩大模型大小可能是进一步改善模型性能的唯一途径。
Apr, 2024
本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K,重点关注数据工程。我们假设长篇背景建模,特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得,而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况(例如,从 4K 延伸到 128K)。我们研究了持续预训练的 “数量” 和 “质量”:(1)对于数量,我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息;(2)对于质量,我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说,我们发现像书籍这样的特定领域上的长数据简单上采样,这是现有工作的常见做法,会得到次优性能,而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型,并缩小了与 GPT-4 128K 等前沿模型之间的差距。
Feb, 2024
本文研究小规模的语言模型中 pre-training 效果的影响,发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果,并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时,研究了 downscaling effects,并且观察到 FLOPs 小于 $2.2×10^{15}$ 时,MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小,增加层数并不总是有助于提高下游表现。
May, 2023
研究发现在过去 70 年里,语言模型的模型尺寸增加了 7 个数量级,在 2018 年至 2022 年的 4 年间加速增长了 5 个数量级,而视觉模型则保持了更稳定的增长;针对 21-70B 参数范围的模型短缺性,研究者提出两种可能的解释并分别进行了讨论
Jul, 2022