大型语言模型的自动指令演化
LLMs 可以通过遵循自然语言指令来完成各种任务,但是指令的质量会对 LLMs 的性能产生极大影响。本文提出了 Auto-Instruct 方法,通过生成多样化的候选指令并使用基于训练过的 575 个 NLP 任务的评分模型进行排序,自动提高 LLMs 的指令质量。在 118 个领域外任务的实验证明,Auto-Instruct 超越了人工编写的指令和现有 LLM 生成的指令的基线。此外,我们的方法还具有显著的泛化能力,即使对于没有被纳入其训练过程的其他 LLMs 也同样有效。
Oct, 2023
本文介绍了一种使用大型语言模型(LLM)替代人类创建指令数据的方法,通过使用我们提出的 Evol-Instruct,从一个初始指令集开始,逐步将其重写为更复杂的指令,然后将生成的所有指令数据混合起来,以调整 LLaMA 模型,获得我们所称的 WizardLM 模型。人类评估证明,Evol-Instruct 出产的指令优于人工创建的指令,尤其是在高复杂度方面,WizardLM 模型的输出被认为比 OpenAI ChatGPT 的输出更好。尽管 WizardLM 在某些方面仍落后于 ChatGPT,但我们的研究表明,用人工智能生成的指令进行微调是提升大型语言模型的一个有前途的方向。
Apr, 2023
使用 Self-Instruct 框架,可以将预训练模型与指令对齐,提高模型的指令遵循能力,无需过多人为指令数据,可用于 finetuning,大大提高了模型的通用性。
Dec, 2022
通过引入自我演变机制 DiverseEvol,我们提出了一种标签高效的指令调整方法,该方法允许模型自己主动采样同样或更有效的子集来改善自身性能,而无需人类干预或更先进的 LLMs。在选择子集时,我们的数据采样技术的关键在于增强所选子集的多样性,使模型根据当前的嵌入空间选择与任何现有数据点都不同的新数据点。在三个数据集和基准测试中进行的大量实验证明了 DiverseEvol 的有效性。我们的模型在原始数据集的不到 8% 的训练基础上,与在完整数据上进行微调相比,性能保持或提高。我们还提供实证证据分析了多样性在指令数据中的重要性以及迭代方案与一次性采样的区别。我们的代码可以在此 https URL 公开获取。
Nov, 2023
我们提出了一种名为 InstOptima 的新方法,将指导生成作为一种进化多目标优化问题,并借助大型语言模型模拟指导操作符,通过引入一个目标引导机制来改进生成指导的质量,实验证明了改进的微调性能和生成一系列高质量指导的多样性。
Oct, 2023
近年来,指导调整已经引起了越来越多的关注,并成为增强大型语言模型(LLM)功能的关键技术。为了构建高质量的指导数据集,已经提出了许多指导处理方法,旨在实现数据数量和数据质量之间的微妙平衡。然而,由于各种指导处理方法之间存在的不一致性,社区中没有标准的开源指导处理实现框架可用,这妨碍了从业者的进一步开发和进展。为了促进指导处理的研究和开发,我们提供了 EasyInstruct,这是一个易于使用的 LLM 指导处理框架,它将指导生成、选择和提示模块化,同时考虑它们的组合和互动。EasyInstruct 已在 https URL 上公开发布,并配有一个运行中的演示应用程序,用于快速启动,并呼吁更广泛的以指导数据为中心的研究。
Feb, 2024
通过利用大型语言模型进行指导细化和多智能体协作,提出 CoEvol 框架来增强大型语言模型对指令的响应能力,并通过 MT-Bench 和 AlpacaEval 验证了其有效性。
Jun, 2024
本文介绍了 WizardCoder,它利用 Evol-Instruct 方法将复杂的指令微调应用于代码领域,通过对四个主要的代码生成基准进行全面实验,揭示了该模型的出色能力,并超越了所有其他开源 Code LLMs,甚至在 HumanEval 和 HumanEval + 上表现出秀。
Jun, 2023
本文研究现有的代码生成方法的性能限制,并引入了一种新的方法 Instruction Fusion(IF),该方法通过混合两个不同的提示来增强代码 LLM 的训练提示的演化,实验结果显示该方法显著改善了代码 LLM 在五个代码生成基准测试中的性能。
Dec, 2023