LoBaSS：衡量监督微调数据的可学习性

Oct, 2023

LoBaSS：衡量监督微调数据的可学习性

LoBaSS: Gauging Learnability in Supervised Fine-tuning Data

Haotian Zhou, Tingkai Liu, Qianli Ma, Jianbo Yuan, Pengfei Liu...

TL;DR利用数据的可学习性作为选择模型数据的主要标准，研究通过引入损失为基础的 SFT 数据选择方法（LoBaSS）来确保数据选择与模型能力的匹配，从而提高对话和数学领域的模型能力。LoBaSS 方法在仅使用总训练数据的 6% 的情况下，超过全数据微调方法，在使用 16.7% 的数据时，能够协调模型在对话和数学领域的能力，验证其有效性和适应性。

Abstract

supervised fine-tuning (SFT) serves as a crucial phase in aligning Large Language Models (llms) to specific task prerequisites. The selection of fine-tuning data profoundly influences the model's performance, who

supervised fine-tuning llms data selection learnability lobass method

发现论文，激发创造

大型语言模型的能力受监督微调数据组成的影响

通过研究大型语言模型在数据组成、数学推理、代码生成和精细调整策略等方面的能力，发现不同能力展现出不同的扩展模式，较大的模型在相同数据量下表现更好；数据组成在低数据量下会改善各种能力，而在高数据量下可能导致能力冲突；而我们提出的双阶段混合精细调整策略能够解决多个能力的学习问题。

Oct, 2023

小到大 (S2L)：通过总结小模型的训练轨迹，为大型语言模型进行可扩展的数据选择

通过使用数据选择方法 SmallToLarge（S2L）指导大型模型的数据选择，提高了有监督微调的数据效率，特别适用于数学问题解决领域。在大量实验中证明，S2L 显著提高了有监督微调的数据效率，仅使用原 MathInstruct 数据集的 11％的训练数据即可达到完整数据集的性能，并在 6 个领域内外评估数据集中优于最先进的数据选择算法的平均值 4.7％。在最具挑战性的 MATH 基准测试中，S2L 仅选择 50K 数据后可达到 32.7％的准确率，相比 Phi-2 提高了 16.6％。在使用 MIMIC-III 数据集进行临床文本摘要时，S2L 只使用 50％的数据就能优于使用完整数据集进行训练。此外，S2L 可以使用比目标模型小 40 倍的参考模型进行数据选择，从而降低数据选择的成本。

Mar, 2024

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

大型语言模型学习数学推理的规模关系

探索大型语言模型中数学推理的挑战，研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响，发现预训练损失是模型性能的更好指标，应用不同数量的监督数据和拒绝抽样微调来改善模型性能，发现增加数据量与模型性能呈对数线性关系，增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。

Aug, 2023

反思有监督微调的数据选择

通过选择具有长回应的实例，我们重新考虑了监督微调的数据选择直觉，提出了关于反映人类交互而非数据质量或多样性的关键示范的重要性，这种简单的启发式方法暗含了人性化对话的一个关键方面。

Feb, 2024

通过监督微调向大规模语言模型注入新知识

研究了在最新的体育事件领域中，通过具有监督的微调方法对大规模语言模型进行知识注入的有效性，并比较了基于令牌和基于事实缩放的不同数据集生成策略，发现基于事实缩放提供了更为系统的方法来确保对所有事实的均匀覆盖。通过 SFT 进行更有效的知识吸收，从而显著提高了与领域外知识相关的问答任务的性能，为领域适应性和提高大规模语言模型响应准确性的潜力做出了贡献。

Mar, 2024

大规模语言模型的稀疏微调扩展

大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调，但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果，本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs，实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好，并且在运行时间上可比较。

Jan, 2024

UltraLink：一种开源的知识增强的多语言监督微调数据集

本研究构建了一个开源的多语言监督微调数据集，通过引入基于知识的数据增强方法提高了大语言模型从不同国家的用户中获取文化特定知识的能力，并通过实验发现现代大语言模型表现出强大的跨语言转移能力，从而有效地减少了语言无关的微调数据，使得微调过程更加高效。基于构建的 UltraLink 数据集进行训练的 UltraLink-LM 在多个任务上优于其他代表性基线模型。

Feb, 2024

LLMs 数学推理中的数据能力边界的实证研究

通过识别推理路径的最佳集合来确定推理路径增强的能力边界，通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力，以较低的建设成本实现 SOTA 性能，并提供用于鲁棒性测试和教育应用的自动问题生成器。

Feb, 2024

大语言模型标注资源节约的有监督微调实验设计框架

我们提出使用实验设计来缓解 SFT 的标注成本，并避免在 LLM 的背景下应用主动学习的计算瓶颈。我们的方法在生成任务中实现了与随机抽样所需注释成本相同的泛化性能，仅需 50% 的注释成本。

Jan, 2024