自引导：通过自合成微调实现更好的任务特定指示跟随

Jul, 2024

自引导：通过自合成微调实现更好的任务特定指示跟随

SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning

Chenyang Zhao, Xueying Jia, Vijay Viswanathan, Tongshuang Wu, Graham Neubig

TL;DRSELF-GUIDE机制通过自我合成的数据，指导大型语言模型（LLM）在特定任务上进行微调，显著提高性能，为LLM赋予任务特定的专家能力，无需外部学习信号。

Abstract

large language models (LLMs) hold the promise of solving diverse tasks when provided with appropriate natural language prompts. However, prompting often leads models to make predictions with lower accuracy compar

发现论文，激发创造

自我指导: 用自动生成的指令对齐语言模型

使用Self-Instruct框架，可以将预训练模型与指令对齐，提高模型的指令遵循能力，无需过多人为指令数据，可用于finetuning，大大提高了模型的通用性。

Dec, 2022

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为“Distilling step-by-step”的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注/非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

或许只需要0.5%的数据：低训练数据指令调优的初步探索

本文介绍了一种名为Low Training Data Instruction Tuning (LTD Instruction Tuning)的方式，从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面，降低大型语言模型（LLMs）指令调整的数据使用，提高数据利用效率。实验结果表明，可以使用少于原始数据集的0.5%来训练任务特定的模型，并且相较于使用完整的任务相关数据训练的模型，性能可提升2%。

May, 2023

评估经过教学调整的大型语言模型在代码理解和生成上的表现

在这项研究中，我们评估了10个开源指导式LLMs在四个代表性的代码理解和生成任务上的表现，并得出了以下主要发现：首先，在零样本设置下，指导式LLMs在代码理解和生成任务上非常有竞争力，有时甚至比特定于每个下游任务进行微调的小型SOTA模型表现更好。我们还发现，对于与代码相关的任务，并非总是越大的指导式LLMs表现更好。其次，在少样本设置下，我们发现添加演示示例可以大大帮助指导式LLMs在大多数代码理解和生成任务中表现得更好；然而，这些例子有时会导致不稳定甚至更差的表现。此外，我们发现广泛使用的基于BM25的选样策略在生成问题上明显优于基本随机选样或固定选样。第三，在微调设置下，我们发现与零样本/一样本的表现相比，微调可以进一步提高模型在下游代码理解和生成任务中的性能。此外，在在相同下游任务数据集上进行微调后，指导式LLMs的性能优于小型SOTA模型和未进行指导微调的相似规模LLMs。根据我们的发现，我们进一步提出了有关模型和使用建议、性能和成本的权衡以及未来方向的实用影响。

Aug, 2023

从语言建模到指令遵循：理解指令调优后LLMs的行为转变

通过本研究，我们发现指导微调对大型语言模型产生了三个重要影响，包括了对指令识别的加强、对知识存储层次的对齐以及对单词关系学习的促进。这些发现有助于更深入地理解指导微调对大型语言模型行为变化的影响，并为未来解释和优化这些模型以适用于不同应用领域的研究打下了基础。

Sep, 2023

自我对弈微调将弱语言模型转化为强语言模型

通过自我对弈优化学习，无需专家对手，实现在大型语言模型中无需人工标注数据即可达到人类水平性能的研究

Jan, 2024

小型LLM是弱工具学习者：多LLM代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源LLMs（如LLaMA-2 70B和Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予LLMs执行多个顺序指令的能力。通过探索Alpaca等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

通过想象力、搜索和批评实现LLM的自我提升

AlphaLLM通过将Monte Carlo Tree Search(MCTS)与LLMs集成，建立了一个自我改进循环，从而提高了LLMs的能力，同时避免了其他额外的注释，实验结果表明AlphaLLM显著提高了LLMs的性能。

Apr, 2024

自我评估：选择性执行指令与对齐自我评估

本研究解决了预训练大语言模型在执行人类指令时因测试时间数据分布变化而导致的准确性问题。提出的选择性指令执行方法依赖于训练判别模型来预测模型响应的质量，并通过自我评估框架Self-J来建立这些模型，避免了需要人工标注的质量分数。实验表明，该方法在多个开源模型中的表现优于强基线，并且在域间具有良好的泛化能力。

Sep, 2024