选择性反思调整：针对 LLM 指导调整的学生选取数据循环

Feb, 2024

选择性反思调整：针对 LLM 指导调整的学生选取数据循环

Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Jiuxiang Gu...

TL;DR选择性反射微调是一种新型范式，通过结合教师型巨型语言模型的反思和内省以及学生型巨型语言模型的数据选择能力，自动优化现有的指示微调数据，从而生成高质量且与学生模型兼容的指示 - 回答对，提升巨型语言模型微调和自我改进的效率，实现卓越性能的巨型语言模型。

Abstract

instruction tuning is critical to large language models (LLMs) for achieving better instruction following and task adaptation capabilities but its success heavily relies on the training →

instruction tuning language models data quality selective reflection-tuning finetuning

发现论文，激发创造

反射调优：数据再利用提升 LLM 指令调优

通过反思调整指令的判断能力，本研究提出了一种名为 “reflection-tuning” 的新方法，利用 Oracle LLM 自省和提高数据中指令和回应的质量来优化大型语言模型（LLMs），在广泛使用的评估基准上的实验证明，我们用反思调整后的数据训练的 LLMs 在各种测评中表现优于使用现有数据集训练的模型。

Oct, 2023

SelectIT: 基于不确定性感知的选择性指导调整大型语言模型的方法

使用 SelectIT 自动选择高质量的指令调优数据，并应用于选择性 Alpaca-GPT4 数据集，提高模型性能。

Feb, 2024

LLM 指导调优的数据选择调查

通过介绍使用的指导数据集，提出了数据选择方法的新分类，并详细介绍了最近的研究进展、评估策略和结果，强调了这一任务的挑战和新的前沿。

Feb, 2024

小型语言模型能为较大语言模型选择调整训练数据

通过基于样本学习百分比的训练数据选择，我们展示了当前语言模型具备自主选择高质量训练数据的能力，这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。

Feb, 2024

TasTe: 通过自我反思教授大型语言模型进行翻译

TasTe 框架通过自我反思的过程提出了一种新的方法，通过指导和评估生成的初步翻译，并最终提高翻译质量和大型语言模型的能力。

Jun, 2024

视觉语言指导调整：综述与分析

通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾，我们总结出高质量图像语言调整数据的特点，构建了完整的数据收集、指令生成和质量控制模块的构建流水线，并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整，并通过相应的度量指标进行了大量实验，以论证本文提出的构建原则的合理性。

Nov, 2023

你的视觉语言模型本身就是一个强大的过滤器：走向高质量的指令调优与数据选择

通过将自己作为过滤器，利用训练后的评分网络来衡量每个指令的难度，并选择最具挑战性的样本，自过滤方法可以在仅使用约 15% 的样本的情况下达到比全数据设置更好的结果，并取得优于竞争基线的性能。

Feb, 2024

或许只需要 0.5% 的数据：低训练数据指令调优的初步探索

本文介绍了一种名为 Low Training Data Instruction Tuning (LTD Instruction Tuning) 的方式，从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面，降低大型语言模型（LLMs）指令调整的数据使用，提高数据利用效率。实验结果表明，可以使用少于原始数据集的 0.5% 来训练任务特定的模型，并且相较于使用完整的任务相关数据训练的模型，性能可提升 2%。

May, 2023

从数量到质量：通过自导数据选择提高 LLM 性能以进行指令调整

大型语言模型的自主选择优化方法以及通过 IFD 指标识别差异以提高模型训练效率的研究对于提高 LLM 的效率和资源利用具有重要意义。

Aug, 2023

Reflect-RL: 用于语言模型的两人在线强化学习微调

使用在线强化学习引导反射模型辅助多轮交互决策中的预训练语言模型，通过单提示动作枚举和课程学习来提高性能。实验证实了 Reflect-RL 在在线学习中的有效性，并显示其在性能上优于通常的 SFT 和无反射的在线 RL 方法。

Feb, 2024