数据混合规律：通过预测语言建模性能来优化数据混合

Mar, 2024

数据混合规律：通过预测语言建模性能来优化数据混合

Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance

Jiasheng Ye, Peiju Liu, Tianxiang Sun, Yunhua Zhou, Jun Zhan...

TL;DR预训练数据、语言模型、数据混合规律、模型性能和数据计划

Abstract

pretraining data of large language models composes multiple domains (e.g., web texts, academic papers, codes), whose mixture proportions crucially impact the competence of outcome models. While existing endeavors

pretraining data language models data mixing laws model performance data schedules

发现论文，激发创造

数据混合的高效实现：语言模型预训练的双变量缩放法

本研究提出了一种统一的缩放定律 BiMix，准确地模拟了数据数量和混合比例的双变量缩放行为，通过使用低成本的代理策略优化数据筛选，以提高训练效率。实验证据表明，基于熵驱动的无需训练的数据混合方法可以实现与更消耗资源的方法相媲美甚至更好的性能。我们希望这些定量研究结果能为高效语言建模的进一步研究和开发提供启示。

May, 2024

语言模型预训练的高效在线数据混合

研究论文通过开发一种高效的在线数据混合算法（ODM），结合了数据选择和数据混合的元素，优化了训练过程中的数据混合比例，提高了大型语言模型的性能。

Dec, 2023

多语言神经机器翻译的规模定律

本研究提供了一个大规模的实证研究，研究了多语言神经机器翻译模型的缩放特性，包括模型规模对模型性能的影响，训练混合物组成对缩放行为的作用，以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式，我们计算了每个语言对分配的有效参数数量，并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终，我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能，显著减少了大型多语言模型中语言平衡所需的工作量。

Feb, 2023

D-CPT 法：针对大型语言模型的领域专用持续预训练规模定律

基于尺度定律的领域特定持续预训练法 (D-CPT Law) 可用于预测不同尺寸的语言模型的理想混合比例，以及交叉领域的 D-CPT Law 可用于目标领域的预测，不同尺寸和数据集尺寸的训练成本相对较低。

Jun, 2024

构建最优的语言模型学习

通过最大化数据压缩比率，优化语言模型的学习，提出了一个理论来揭示在此目标下优化学习过程的动态特性，并通过实验验证了该理论的有效性，最终得出语言模型的最优学习实质上是通过改善语言模型的缩放定律系数来实现的，为设计实用的学习加速方法提供了巨大的潜力和重要性。

Feb, 2024

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

技术报告：更好混合的竞争解决方案

在大规模模型时代，选择和优化海量复杂数据集以提高大型语言模型的性能，在有限的计算资源约束下成为一项重大挑战。本文详细介绍了我们在 BetterMixture 挑战中的解决方案，着重于对大型语言模型进行微调数据混合。我们的方法在数据去重、低级和高级质量过滤以及多样性选择方面表现出色，在处理和优化大型语言模型的数据方面，基于 Data-Juicer 的扩展工具 Ke-Data-Juicer 使其具备了强大的能力。

Mar, 2024

观察性缩放律与语言模型性能的可预测性

通过观测法利用多个已有模型家族构建单一的扩展律，展示了复杂的扩展现象是可预测的，模型性能可以从简单的非代理基准准确预测，预测了后期训练干预的影响。

May, 2024

生成混合模式语言模型的缩放定律

研究了混合式语言生成模型的规模特性及其相互作用，提出了新的混合式扩展定律，并发现了四种训练现象和各种相互作用连接。

Jan, 2023

动态数据混合最大化专家混合模型的指令调优

基于混合专家模型（Mixture-of-Experts），提出了一种动态数据混合的处理方法以优化模型性能，通过动态地调整训练数据的采样权重，减少数据集中的冗余，从而在有限的训练预算下最大化整体性能。

Jun, 2024