从符号任务到代码生成：多样化产生更好的任务执行者

May, 2024

从符号任务到代码生成：多样化产生更好的任务执行者

From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers

Dylan Zhang, Justin Wang, Francois Charton

TL;DR通过合适的指令调整，语言模型在指令 - 输出对的训练上能够更好地适应真实世界；研究发现，提供足够多样化的任务集合能够使其在训练分布之外的情况下具备泛化和鲁棒性，并且扩展调整指令集合能够提高代码生成的性能。

Abstract

instruction tuning -- tuning large language models on instruction-output pairs -- is a promising technique for making models better adapted to the real world. Yet, the key factors driving the model's capability t

instruction tuning language models code generation task diversity instruction set

发现论文，激发创造

指导多样性推动对未知任务的泛化

通过调整指令，大型语言模型（LLM）可以进行微调，实现真实世界任务执行和遵循人类指令；实现普遍使用的关键取决于模型学习更广泛的指令集而不仅仅是训练集上的指令。本文通过实验探究了指令多样性与模型普适性之间的权衡，发现多样性的指令集使模型具备普适性，并确保在训练集上非均匀分布指令的情况下保持鲁棒性。

Feb, 2024

从零到英雄：探究符号任务在指导调整中的作用

本研究提出一种采用符号任务来增强指令调整的简单而有效方法，在多个基准测试中验证该方法可以提高语言模型的零 - shot 表推理能力，并证明符号任务不会影响语言模型的普适性。

Apr, 2023

指导事项对于特定任务的指导调优中的简单而有效的任务选择方法

指导调优通过仅利用指导信息来识别相关任务，并另外学习元数据集的独特指导模板风格，提高任务选择准确性，从而改进了性能。

Apr, 2024

模型是否真的学会遵循指令？一项关于指令调整的经验研究

本文分析了模型在指令调优过程中如何利用指令，并对比了模型在不同指令下的表现。结果显示，指令调优的表现提升可以来自学习表面模式，例如识别输出格式和猜测。因此，本研究提出了迫切需要更加可靠的指令调优方法和评估。

May, 2023

专家还是通才？特定 NLP 任务的指导调校

通过整合广泛覆盖的通用模型调优方式，本研究研究了在建立专用模型方面是否有助于提高性能，结果表明广泛覆盖的任务和有限的任务特定训练数据时，整合通用模型调优可以始终提高模型性能。

Oct, 2023

交叉任务泛化的可微指令优化

本研究介绍了一种使用可学习的指令并基于双层优化优化它们的方法来提高指令调整的横向通用性的优化训练指令的方法，并证明与只使用手动创建的指令相比，学习的指令能够增强指令的多样性并提高横向通用性。

Jun, 2023

主动指令调整：通过对响应敏感任务进行训练来改善跨任务泛化能力

通过基于提示不确定性的主动指导调整，本研究提出了一种新颖的框架来识别信息量大的任务，并在所选任务上主动调整模型，实验表明该方法在任务选择方面优于其他基准策略，并通过更少的训练任务实现了更好的超出分布的泛化性能。

Nov, 2023

WaveCoder: 广泛且多功能的增强指令调整与精细数据生成

通过将指令数据分类到 4 个与代码相关的任务，并提出了基于 LLM 的生成 - 判别器数据处理框架，从开源代码生成多样且高质量的指令数据，进而介绍了 CodeOcean，这是一个包含 20,000 个指令实例的数据集，用于增强指令调优的效果和优化精调模型的泛化能力，随后提出了 WaveCoder，一种针对增强指令调优的 Code LLM 的精调模型，通过实验验证 WaveCoder 模型在不同代码相关任务上具有较好的泛化能力，并且在以往的代码生成任务中表现出高效性。该论文对指令数据生成和精调模型的领域做出了重要贡献，为增强代码相关任务的性能提供了新的见解和工具。

Dec, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点（7b 到 33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于 GPT-4 的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

指导性调整的模型具有快速学习能力

本文研究指令优化对增强模型转移学习和增强其在不同自然语言处理任务方面的效果，并表明在使用指令的预微调下，模型在单任务和多任务方面的性能都得到了提高。

May, 2023