语言模型预训练的高效在线数据混合

Dec, 2023

语言模型预训练的高效在线数据混合

Efficient Online Data Mixing For Language Model Pre-Training

Alon Albalak, Liangming Pan, Colin Raffel, William Yang Wang

TL;DR研究论文通过开发一种高效的在线数据混合算法（ODM），结合了数据选择和数据混合的元素，优化了训练过程中的数据混合比例，提高了大型语言模型的性能。

Abstract

The data used to pretrain large language models has a decisive impact on a model's downstream performance, which has led to a large body of work on data selection methods that aim to automatically determine the most suitable data to use for pretraining. Existing →

large language models data selection methods data mixing online data mixing multi-armed bandit algorithms

发现论文，激发创造

数据混合规律：通过预测语言建模性能来优化数据混合

预训练数据、语言模型、数据混合规律、模型性能和数据计划

Mar, 2024

动态数据混合最大化专家混合模型的指令调优

基于混合专家模型（Mixture-of-Experts），提出了一种动态数据混合的处理方法以优化模型性能，通过动态地调整训练数据的采样权重，减少数据集中的冗余，从而在有限的训练预算下最大化整体性能。

Jun, 2024

基于数据制图的预训练语言模型 MixUp 技术

本文提出 TDMixUp 方法，利用训练动态，基于易于学习或模糊样本测量置信度、可变性、AUM 特征，让更具备信息量的样本相互插值，生成新样本，实验证明该方法不仅在较小的训练数据子集上取得竞争性能，而且在广泛的自然语言处理任务中，使用预训练语言模型 BERT 取得较低的期望校准误差。我们公开发布了我们的代码。

May, 2022

DEM：混合数据分布训练的分布编辑模型

提出了一种简单和高效的方法，使用基本的逐元素向量操作将每个数据源上单独训练的模型与基本模型相结合，从而更好地优化数据源，得到一种名为分布编辑模型（DEM）的模型，与标准数据混合相比廉价 11 倍，并在各种基准测试中优于强基准，对大小为 3B 到 13B 的模型分别可以获得 MMLU 的 6.2％改进，BBH 的 11.5％改进，DROP 的 16.1％，HELM 的 9.3％改进。值得注意的是，DEM 在修改单个数据源时不需要完全重新训练，因此非常灵活和可扩展以适应各种数据源的训练。

Jun, 2024

数据混合的高效实现：语言模型预训练的双变量缩放法

本研究提出了一种统一的缩放定律 BiMix，准确地模拟了数据数量和混合比例的双变量缩放行为，通过使用低成本的代理策略优化数据筛选，以提高训练效率。实验证据表明，基于熵驱动的无需训练的数据混合方法可以实现与更消耗资源的方法相媲美甚至更好的性能。我们希望这些定量研究结果能为高效语言建模的进一步研究和开发提供启示。

May, 2024

技术报告：更好混合的竞争解决方案

在大规模模型时代，选择和优化海量复杂数据集以提高大型语言模型的性能，在有限的计算资源约束下成为一项重大挑战。本文详细介绍了我们在 BetterMixture 挑战中的解决方案，着重于对大型语言模型进行微调数据混合。我们的方法在数据去重、低级和高级质量过滤以及多样性选择方面表现出色，在处理和优化大型语言模型的数据方面，基于 Data-Juicer 的扩展工具 Ke-Data-Juicer 使其具备了强大的能力。

Mar, 2024

技能混合：学习为优化大型语言模型的数据使用进行微调

我们提出了一种通用的、模型无关的强化学习框架 Mixture-of-Skills (MoS)，它能在微调过程中自动优化数据使用，以实现大型语言模型的全面技能发展。我们通过在两个广泛使用的基准测试上进行大量实验证明 MoS 显著提高了模型性能，同时在任务特定微调方面，我们提出了一种适应性技术 MoSpec，为特定目的利用各种数据集的效用。我们的工作强调了数据集的再平衡的重要性，并将 MoS 提出为优化大型语言模型微调过程中数据使用的强大通用解决方案。

Jun, 2024

用于自监督学习改进的简单数据混合先验

本文提出了 SDMP 方法来捕捉数据混合的内在相关性，将混合的图像作为额外的正对，从而在自监督表示学习中提高了学习框架的准确度和鲁棒性，是首个成功利用数据混合来提高视觉 Transformer 性能的方法。

Jun, 2022

多样化机器翻译的混合模型：实用技巧

本文研究了通过 EM 训练的混合模型在文本生成方面的应用，通过设计参数、优化模型选择和评估协议，提出了一些更为鲁棒的混合模型，相比于变分模型和多样的解码方法在翻译质量和多样性之间提供了更好的平衡点。

Feb, 2019

面对数据不平衡的多语言学习中的顺序问题

本文从实证角度研究了多任务学习的优化动态，特别关注了在存在显著数据不平衡的多个任务集合中所涉及的优化过程。我们提出了一种简单但有效的方法，即在高资源任务上进行预训练，然后在高 / 低资源任务的混合中进行微调。通过彻底的实证研究和分析，我们证明了该方法相对于标准静态加权的性能权衡概况实现了持续改进。我们分析了在什么样的数据条件下该方法适用，并在神经机器翻译（NMT）和多语言语言建模中实证了其改进效果。

Dec, 2023