对齐更长时间：一种简单但难以打败的教学微调基准

Feb, 2024

对齐更长时间：一种简单但难以打败的教学微调基准

Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning

Hao Zhao, Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion

TL;DR在对指令微调的研究中，最长指令的选择应该是任何研究的默认基线，因为经证实此方法能够在LLMs中提高性能，保持与对事实的知识进行测试的OpenLLM基准的竞争力。

Abstract

There is a consensus that instruction fine-tuning of llms requires high-quality data, but what are they? LIMA (NeurIPS 2023) and AlpaGasus

发现论文，激发创造

或许只需要0.5%的数据：低训练数据指令调优的初步探索

本文介绍了一种名为Low Training Data Instruction Tuning (LTD Instruction Tuning)的方式，从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面，降低大型语言模型（LLMs）指令调整的数据使用，提高数据利用效率。实验结果表明，可以使用少于原始数据集的0.5%来训练任务特定的模型，并且相较于使用完整的任务相关数据训练的模型，性能可提升2%。

May, 2023

从数量到质量：通过自导数据选择提高LLM性能以进行指令调整

大型语言模型的自主选择优化方法以及通过IFD指标识别差异以提高模型训练效率的研究对于提高LLM的效率和资源利用具有重要意义。

Aug, 2023

大型语言模型对指令的稳健性评估

指令微调方法能够增强大型语言模型在未知任务上的零样本功能，并对其性能和稳健性进行了评估，发现在处理陌生指令时性能显著下降，而对于关系抽取指令的稳健性较问答指令更差。

Aug, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的40k人工指导的指令数据集进行了数百个模型检查点（7b到33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于GPT-4的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

开源LLM指令调整的自动指令优化

通过自动修订样本来增强指令数据集的质量，CoachLM训练自人工专家修订过的样本，并将数据集中高质量样本的比例从17.7％提高到78.9％。CoachLM通过平均29.9％的提升改善了指令调优的语言学习模型的指令跟随能力，并在华为的LLM数据管理系统中实现了高达20％的效率提升。

Nov, 2023

基于上下文学习的重新思考对齐的解锁咒语

通过对基于SFT和RLHF的对齐方法的分析，我们发现通过ICL方法URIAL，使得基于语言模型的对齐方法不再需要SFT或RLHF来实现高效对齐，并且实验证明URIAL的性能与基于SFT或SFT+RLHF的方法相媲美甚至更优。这些结果表明，对于未来的LLM研究来说，更深入的对齐分析和理论理解至关重要。

Dec, 2023

大型语言模型的分阶段指导微调

通过渐进对齐的假设，我们提出了一种新颖的分阶段指令微调（Phased IFT）方法，基于难度评分并使用逐步训练的方式显著地提高了预训练语言模型的指令遵循能力。

Jun, 2024

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。

Jun, 2024

非指导性微调：在没有指导性数据的情况下赋予预训练语言模型遵循指令的能力

本研究解决了在缺乏指导性数据的情况下，如何使预训练语言模型具备遵循指令能力的问题。提出了一种新方法，通过使用随机文本的前半部分作为指令，与GPT-3.5-turbo或GPT-4-turbo生成的文本作为响应，进行微调。实验表明，使用这种“非指导性数据”进行微调的模型在遵循指令能力上有所提升，甚至达到了与经过监督微调的模型相当的水平，具有重要的研究意义。

Aug, 2024

平衡持续预训练与指令微调：优化大型语言模型的指令遵循能力

本研究旨在解决大型语言模型（LLMs）在持续预训练与指令微调之间的平衡问题，以保持最新的数据和准确的指令遵循能力。研究发现，通过持续预训练可以有效提升基础模型及其指令微调模型的指令遵循能力，而无需额外的指令数据和微调，展示了高计算效率的潜力。

Oct, 2024