MATES: 基于模型的数据选择与数据影响模型的高效预训练

Jun, 2024

MATES: 基于模型的数据选择与数据影响模型的高效预训练

MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models

Zichun Yu, Spandan Das, Chenyan Xiong

TL;DR使用模型感知数据选择方法 (MATES) 能够在预训练模型中持续调整数据选择，契合当前预训练进展并在后续任务中显著提高性能。

Abstract

pretraining data selection has the potential to improve language model pretraining efficiency by utilizing higher-quality data from massive web data corpora. Current data selection methods, which rely on either h

pretraining data selection language model data influence models downstream tasks data preferences

发现论文，激发创造

從原則出發的數據選擇，為 LLMs 的預熱微調提供更多、花費更少

使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求，并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法，展示了该方法在各种任务中的优越性和快速性，为经济高效的微调奠定了基础。

May, 2024

有影响力的子集选择用于语言模型的告别漫无目的的大规模预训练

本文提出了一种基于 Influence Subset Selection（ISS）的方法，利用端到端任务知识选择一个较小的语言模型预训练语料库子集，并以较低的计算成本获得与 RoBERTa 等大型预训练模型相媲美的性能。

May, 2023

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

语言模型预训练的高效在线数据混合

研究论文通过开发一种高效的在线数据混合算法（ODM），结合了数据选择和数据混合的元素，优化了训练过程中的数据混合比例，提高了大型语言模型的性能。

Dec, 2023

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

抛弃糟粕保留精华：关于大规模语言模型微调中的数据选择的思考

大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集，以训练一个挂起的微调模型进而得到一个选择性增强模型，以提高模型性能并加快训练进程。通过深入的分析和综述，我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率，但在设计选择算法时应避免引入额外的噪声信息，并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。

Jun, 2024

自动数学文本：利用语言模型进行数学文本的自主数据选择

通过利用基础语言模型进行自主数据选择，改进语言模型在数学推理方面的能力，我们引入了一种创新的策略。该策略利用元提示语言模型作为零 - shot 验证器，自主评估和选择高质量的数学内容。我们发布了一个经过筛选的开源 AutoMathText 数据集，包含超过 200GB 的数据。我们将 7B 参数的 Mistral 语言模型连续预训练于 AutoMathText 数据集上，与以前的连续预训练工作相比，下游性能显著提高，并且标记数量大幅减少。我们的方法比基准方法提高了 2 倍的预训练标记效率，突显了我们方法在增强模型数学推理能力方面的潜力。AutoMathText 数据集可在此 https URL 获取，代码可在此 https URL 获取。

Feb, 2024

小型语言模型能为较大语言模型选择调整训练数据

通过基于样本学习百分比的训练数据选择，我们展示了当前语言模型具备自主选择高质量训练数据的能力，这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。

Feb, 2024

DsDm: 使用数据模型的模型感知数据集选择

利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集，避免主观标准，并明确了学习过程如何利用训练数据进行目标任务的预测，从而极大地提高了语言模型的性能。

Jan, 2024

LESS: 选择影响力数据以进行目标指导优化

我们提出了 LESS，这是一种优化感知且实际高效的算法，用于有效估计数据影响并执行用于指令数据选择的低秩梯度相似性搜索。实验表明，在多样的下游任务中，使用 LESS 选中的 5% 的数据进行训练通常优于全数据集的训练。此外，所选数据具有高度可迁移性：可以利用较小的模型为较大的模型以及来自不同家族的模型选择有用的数据。我们的定性分析表明，我们的方法超越了表面形式线索，能够识别出在预期的下游应用中体现必要推理技能的数据。

Feb, 2024