反射调优：数据再利用提升 LLM 指令调优

Oct, 2023

反射调优：数据再利用提升 LLM 指令调优

Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning

Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Heng Huang...

TL;DR通过反思调整指令的判断能力，本研究提出了一种名为 “reflection-tuning” 的新方法，利用 Oracle LLM 自省和提高数据中指令和回应的质量来优化大型语言模型（LLMs），在广泛使用的评估基准上的实验证明，我们用反思调整后的数据训练的 LLMs 在各种测评中表现优于使用现有数据集训练的模型。

Abstract

Recent advancements in large language models (LLMs) have expanded the horizons of natural language understanding and generation. Notably, the output control and alignment with the input of LLMs can be refined through instruction tuning. However, as highlighted in several studies, low-q

large language models instruction tuning reflection-tuning oracle llm recycled data

发现论文，激发创造

选择性反思调整：针对 LLM 指导调整的学生选取数据循环

选择性反射微调是一种新型范式，通过结合教师型巨型语言模型的反思和内省以及学生型巨型语言模型的数据选择能力，自动优化现有的指示微调数据，从而生成高质量且与学生模型兼容的指示 - 回答对，提升巨型语言模型微调和自我改进的效率，实现卓越性能的巨型语言模型。

Feb, 2024

TasTe: 通过自我反思教授大型语言模型进行翻译

TasTe 框架通过自我反思的过程提出了一种新的方法，通过指导和评估生成的初步翻译，并最终提高翻译质量和大型语言模型的能力。

Jun, 2024

或许只需要 0.5% 的数据：低训练数据指令调优的初步探索

本文介绍了一种名为 Low Training Data Instruction Tuning (LTD Instruction Tuning) 的方式，从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面，降低大型语言模型（LLMs）指令调整的数据使用，提高数据利用效率。实验结果表明，可以使用少于原始数据集的 0.5% 来训练任务特定的模型，并且相较于使用完整的任务相关数据训练的模型，性能可提升 2%。

May, 2023

DUAL-REFLECT：通过双向学习反馈机制增强大型语言模型的反思翻译能力

利用双向学习的自我反思框架来提高翻译任务、增强模型的自我反思能力并改进翻译表现，特别适用于低资源语言对的翻译任务，大大提高了翻译准确性和消除了歧义。

Jun, 2024

通过自我对话增强基于 LLM 的任务导向对话系统

通过使用大型语言模型进行自我对话的方法可以改进对话质量并生成用于训练的自我对话数据集。

Jan, 2024

自动调整：通过自学指导 LLMs 有效获得新知识

通过自学习的方式，引入 Self-Tuning 学习框架以提高大型语言模型的新知识获取能力，通过加强文档的自监督任务，着重在记忆、理解和自反思三个关键方面，实现从原始文档中高效获取新知识，通过三个数据集进行对知识获取能力的深入分析，实验证明 Self-Tuning 在所有知识获取任务上保持出色的性能，并擅长保留先前的知识。

Jun, 2024

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用，并分析了影响 IT 结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了 IT 存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

CodecLM: 用定制的合成数据对齐语言模型

通过使用编码 - 解码原理，我们引入了 CodecLM，这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中，我们将种子指令转化为元数据，然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本，经过在四个开放领域指令遵循基准测试上的大量实验证明，CodecLM 相对于当前技术水平具有显著的效果。

Apr, 2024

RECOST: 基于外部知识引导的数据高效训练指导优化

使用外部知识与基于上下文的相对预测熵评估由大型语言模型合成的样本，并结合多样性一致性抽样，提出了一种名为 RECOST 的框架，通过在合成数据集中实验展示了方法的有效性，并仅使用全数据集的 1％即可获得更好的结果。

Feb, 2024

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点（7b 到 33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于 GPT-4 的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023