复杂性与对齐之间的内在关系初探

Aug, 2023

复杂性与对齐之间的内在关系初探

A Preliminary Study of the Intrinsic Relationship between Complexity and Alignment

Yingxiu Zhao, Bowen Yu, Binyuan Hui, Haiyang Yu, Fei Huang...

TL;DR通过在指令语义树中添加指定数量的节点以增加指令数据的复杂性，我们的研究发现增加复杂性可以持续提升性能，而少数复杂指令优于多样化的简单指令，课程指令调整可能达不到期望的结果。

Abstract

Training large language models (LLMs) with open-domain instruction data has yielded remarkable success in aligning to end tasks and user preferences. Extensive research has highlighted that enhancing the quality

发现论文，激发创造

探究指令数据比例对大型语言模型的影响：基于实际应用案例的经验研究

本文探讨了指令调整对大型语言模型性能的影响，并在在线应用案例中通过增加不同比例的指令数据探究了模型的表现。结果表明，增加指令数据可改善某些任务的表现，但对于数学和代码等任务，增加数据规模的改善效果不明显。

Mar, 2023

探索-指导：通过主动探索增加领域特定指导范围

通过数据探索实现领域指导调整的数据覆盖增强方法，提高指导模型的颗粒化理解和交流能力，并在多个基准测试中取得显著进展，为改善特定领域中的指导覆盖提供了有希望的机会，推进可适应性语言模型的发展。

Oct, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的40k人工指导的指令数据集进行了数百个模型检查点（7b到33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于GPT-4的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

自主演化多样化数据采样用于高效指导调优

通过引入自我演变机制DiverseEvol，我们提出了一种标签高效的指令调整方法，该方法允许模型自己主动采样同样或更有效的子集来改善自身性能，而无需人类干预或更先进的LLMs。在选择子集时，我们的数据采样技术的关键在于增强所选子集的多样性，使模型根据当前的嵌入空间选择与任何现有数据点都不同的新数据点。在三个数据集和基准测试中进行的大量实验证明了DiverseEvol的有效性。我们的模型在原始数据集的不到8%的训练基础上，与在完整数据上进行微调相比，性能保持或提高。我们还提供实证证据分析了多样性在指令数据中的重要性以及迭代方案与一次性采样的区别。我们的代码可以在此https URL公开获取。

Nov, 2023

多样性和质量胜过数量：朝向多功能教学策划

本文介绍了一种高效且多功能的方法，用于从微调数据集中选择多样且高质量的指令跟踪数据。我们首先通过数据集的增强和扩展增加了更多多样性和高质量的数据，然后依次应用多样性压缩和质量压缩来筛选所需的数据集。实验结果表明，即使只有有限数量的高质量指令数据，LLMs在自然语言理解任务和代码生成任务中仍能保持稳定的性能，特别是在某些情况下超过了在明显更大的指令数据集上训练的模型。

Dec, 2023

对齐更长时间：一种简单但难以打败的教学微调基准

在对指令微调的研究中，最长指令的选择应该是任何研究的默认基线，因为经证实此方法能够在LLMs中提高性能，保持与对事实的知识进行测试的OpenLLM基准的竞争力。

Feb, 2024

从复杂到简单：增强大型语言模型的多约束复合指令跟随能力

使用包含多个约束条件的指令来训练大型语言模型，能提高其理解复杂指令，特别是对于低复杂性水平的指令，甚至可以推广到超出领域约束的组合，同时提出了获取和利用有效训练数据的方法，并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。

Apr, 2024

用任务感知课程计划对大型语言模型进行指令遵循能力提炼

任务感知课程规划的指导下，使用动态难度调整的多轮精馏框架TAPIR提供平衡的任务分布，通过升级难度水平逐步提升学生LLM的能力，并经过两个广泛认可的基准测试验证，结果表明使用我们的方法及较少的训练数据训练的学生LLMs在复杂任务中（如逻辑推理和代码生成）优于较大的经过指导调整的模型和强大的精馏基准线。

May, 2024

大型语言模型的分阶段指导微调

通过渐进对齐的假设，我们提出了一种新颖的分阶段指令微调（Phased IFT）方法，基于难度评分并使用逐步训练的方式显著地提高了预训练语言模型的指令遵循能力。

Jun, 2024

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。

Jun, 2024