反思有监督微调的数据选择

Feb, 2024

Rethinking Data Selection for Supervised Fine-Tuning

Ming Shen

TL;DR通过选择具有长回应的实例，我们重新考虑了监督微调的数据选择直觉，提出了关于反映人类交互而非数据质量或多样性的关键示范的重要性，这种简单的启发式方法暗含了人性化对话的一个关键方面。

Abstract

Although supervised finetuning (SFT) has emerged as an essential technique to align large language models with humans, it is considered superficial, with style learning being its nature. At the same time, recent works indicate the importance of →

supervised finetuning data selection human-like interactions long responses human-style conversation

发现论文，激发创造

LoBaSS：衡量监督微调数据的可学习性

利用数据的可学习性作为选择模型数据的主要标准，研究通过引入损失为基础的 SFT 数据选择方法（LoBaSS）来确保数据选择与模型能力的匹配，从而提高对话和数学领域的模型能力。LoBaSS 方法在仅使用总训练数据的 6% 的情况下，超过全数据微调方法，在使用 16.7% 的数据时，能够协调模型在对话和数学领域的能力，验证其有效性和适应性。

Oct, 2023

抛弃糟粕保留精华：关于大规模语言模型微调中的数据选择的思考

大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集，以训练一个挂起的微调模型进而得到一个选择性增强模型，以提高模型性能并加快训练进程。通过深入的分析和综述，我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率，但在设计选择算法时应避免引入额外的噪声信息，并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。

Jun, 2024

小到大 (S2L)：通过总结小模型的训练轨迹，为大型语言模型进行可扩展的数据选择

通过使用数据选择方法 SmallToLarge（S2L）指导大型模型的数据选择，提高了有监督微调的数据效率，特别适用于数学问题解决领域。在大量实验中证明，S2L 显著提高了有监督微调的数据效率，仅使用原 MathInstruct 数据集的 11％的训练数据即可达到完整数据集的性能，并在 6 个领域内外评估数据集中优于最先进的数据选择算法的平均值 4.7％。在最具挑战性的 MATH 基准测试中，S2L 仅选择 50K 数据后可达到 32.7％的准确率，相比 Phi-2 提高了 16.6％。在使用 MIMIC-III 数据集进行临床文本摘要时，S2L 只使用 50％的数据就能优于使用完整数据集进行训练。此外，S2L 可以使用比目标模型小 40 倍的参考模型进行数据选择，从而降低数据选择的成本。

Mar, 2024

大语言模型标注资源节约的有监督微调实验设计框架

我们提出使用实验设计来缓解 SFT 的标注成本，并避免在 LLM 的背景下应用主动学习的计算瓶颈。我们的方法在生成任务中实现了与随机抽样所需注释成本相同的泛化性能，仅需 50% 的注释成本。

Jan, 2024

自我演进的策略优化微调

本研究在大型语言模型（LLMs）对齐方面引入自我演进微调（SEFT），旨在消除对注释样本的需求，同时保持 SFT 的稳定性和效率。通过 SEFT，模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性，并对其相对于现有对齐技术的优势进行了全面分析。

Jun, 2024

通过监督微调向大规模语言模型注入新知识

研究了在最新的体育事件领域中，通过具有监督的微调方法对大规模语言模型进行知识注入的有效性，并比较了基于令牌和基于事实缩放的不同数据集生成策略，发现基于事实缩放提供了更为系统的方法来确保对所有事实的均匀覆盖。通过 SFT 进行更有效的知识吸收，从而显著提高了与领域外知识相关的问答任务的性能，为领域适应性和提高大规模语言模型响应准确性的潜力做出了贡献。

Mar, 2024

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

大型语言模型的能力受监督微调数据组成的影响

通过研究大型语言模型在数据组成、数学推理、代码生成和精细调整策略等方面的能力，发现不同能力展现出不同的扩展模式，较大的模型在相同数据量下表现更好；数据组成在低数据量下会改善各种能力，而在高数据量下可能导致能力冲突；而我们提出的双阶段混合精细调整策略能够解决多个能力的学习问题。

Oct, 2023

从人类演示中学习奖励优化 SFT 数据：提高 LLM 对齐的方法

对齐人类偏好和价值是当代基础模型的重要需求。本研究提出了一种基于逆强化学习的监督微调方法，通过学习奖励模型来代替直接使用人类示范数据，并且在整个对齐过程中从始至终地利用奖励学习，取得了显著的性能提升。

May, 2024

超越模仿：利用细粒度质量信号进行对齐

我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。

Nov, 2023