抛弃糟粕保留精华：关于大规模语言模型微调中的数据选择的思考

Jun, 2024

抛弃糟粕保留精华：关于大规模语言模型微调中的数据选择的思考

Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models

Ziche Liu, Rui Ke, Feng Jiang, Haizhou Li

TL;DR大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集，以训练一个挂起的微调模型进而得到一个选择性增强模型，以提高模型性能并加快训练进程。通过深入的分析和综述，我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率，但在设计选择算法时应避免引入额外的噪声信息，并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。

Abstract

data selection for fine-tuning large language models (LLMs) aims to select a high-quality subset from a given candidate dataset to train a

data selection fine-tuning large language models model performance training process

发现论文，激发创造

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

從原則出發的數據選擇，為 LLMs 的預熱微調提供更多、花費更少

使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求，并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法，展示了该方法在各种任务中的优越性和快速性，为经济高效的微调奠定了基础。

May, 2024

LLM 指导调优的数据选择调查

通过介绍使用的指导数据集，提出了数据选择方法的新分类，并详细介绍了最近的研究进展、评估策略和结果，强调了这一任务的挑战和新的前沿。

Feb, 2024

DsDm: 使用数据模型的模型感知数据集选择

利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集，避免主观标准，并明确了学习过程如何利用训练数据进行目标任务的预测，从而极大地提高了语言模型的性能。

Jan, 2024

分析对数据选择和微调对 LLMs 中的经济和政治偏见的影响

本研究探究了大型语言模型中的经济和政治偏见以及调整细节对其产生的影响，通过使用参数效率微调技术，我们介绍了一种系统的数据集选择、注释和指令调整方法，并通过定量和定性评估评估其有效性，旨在讨论 AI 的道德应用，强调将 AI 部署在符合社会价值观的方式上的重要性。

Apr, 2024

小型语言模型能为较大语言模型选择调整训练数据

通过基于样本学习百分比的训练数据选择，我们展示了当前语言模型具备自主选择高质量训练数据的能力，这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。

Feb, 2024

你的视觉语言模型本身就是一个强大的过滤器：走向高质量的指令调优与数据选择

通过将自己作为过滤器，利用训练后的评分网络来衡量每个指令的难度，并选择最具挑战性的样本，自过滤方法可以在仅使用约 15% 的样本的情况下达到比全数据设置更好的结果，并取得优于竞争基线的性能。

Feb, 2024

反思有监督微调的数据选择

通过选择具有长回应的实例，我们重新考虑了监督微调的数据选择直觉，提出了关于反映人类交互而非数据质量或多样性的关键示范的重要性，这种简单的启发式方法暗含了人性化对话的一个关键方面。

Feb, 2024

小到大 (S2L)：通过总结小模型的训练轨迹，为大型语言模型进行可扩展的数据选择

通过使用数据选择方法 SmallToLarge（S2L）指导大型模型的数据选择，提高了有监督微调的数据效率，特别适用于数学问题解决领域。在大量实验中证明，S2L 显著提高了有监督微调的数据效率，仅使用原 MathInstruct 数据集的 11％的训练数据即可达到完整数据集的性能，并在 6 个领域内外评估数据集中优于最先进的数据选择算法的平均值 4.7％。在最具挑战性的 MATH 基准测试中，S2L 仅选择 50K 数据后可达到 32.7％的准确率，相比 Phi-2 提高了 16.6％。在使用 MIMIC-III 数据集进行临床文本摘要时，S2L 只使用 50％的数据就能优于使用完整数据集进行训练。此外，S2L 可以使用比目标模型小 40 倍的参考模型进行数据选择，从而降低数据选择的成本。

Mar, 2024

大规模语言模型词表筛选在低频词语音识别中的应用

通过降采样、明确筛选稀有词以及使用基于困惑度的对比筛选等简单的策略，结合生产语音引擎，利用语言模型融合技术，相对于使用原始语料训练出的语言模型，使智能语音助手能够更好地辨别听众说出的稀有词而不影响总体识别准确率，并在实时语音搜索流量中得到了有利的侧面对比评估结果。

Mar, 2022