CoIN:一个用于多模型大型语言模型的连续指令调整基准测试
指令调优是一种改善大型语言模型对未知任务性能的有前途的方法。然而,当前的大型语言模型在面对未知指令时表现出有限的稳健性,当相同的指令以稍微变形或语言风格变化的形式表达时会生成不一致的输出。这种行为表明大型语言模型对文本变化的稳健性和对未见指令的泛化能力存在缺陷,可能引发不可靠性问题。基于此,我们提出了对比指令调优,该方法通过最大化语义上等效的指令实例对的隐藏表示之间的相似性,最小化不同语义的实例对之间的相似性。为了促进这一方法,我们通过改写任务指令来扩充现有的 FLAN 集合。在 PromptBench 基准测试上的实验证明,对比指令调优(CoIN)能够使大型语言模型在字符、词、句子和语义级别上对未知指令的稳健性得到持续提升,平均准确率提高了 2.5%。
Feb, 2024
本文研究了指令调整在持续学习大型多模型 (LMMs) 中的应用,并发现持续调整过程中仍然存在灾难性遗忘现象,但多任务联合指令调整可以改善遗忘问题,此外,基于任务相似性的正则化和模型扩展方法在持续学习中表现良好。
Nov, 2023
改进大型语言模型的细化调整方法,通过使用多样的组合指令集合,提高了模型对不同任务的泛化性能;引入了链式指令的新概念(CoI),使模型能够处理由多个子任务组成的复合指令,将模型性能在多语言摘要生成任务中进行了验证。
Feb, 2024
在本研究中,我们提出了一种称为基于指令的连续学习(InsCL)的新范例,通过使用 Wassertein 距离计算任务相似性并基于此动态地回放先前的数据,实现了基于任务相似性的回放策略,同时引入了指令信息度量(InsInfo)来量化指令的复杂性和多样性,并根据 InsInfo 指导回放过程更倾向于高质量的数据。我们在 16 个不同训练顺序的任务上进行了广泛的实验,观察到 InsCL 持续性能改进。当所有任务都训练完毕时,与随机回放相比,InsCL 实现了 3.0 相对增益,与无回放相比,实现了 27.96 相对增益。
Mar, 2024
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024
通过实验证明,Instruction Modelling 能够提高语言模型的性能,特别是在指令调整数据集不充足、指令长度与输出长度不匹配以及减少过拟合情况下,对低资源场景中的语言模型进行指令调整提供了实用指南。
May, 2024
介绍了利用大型语言模型进行指令调优的最新进展,提出了一种双向指令调优策略,通过前向和后向推理任务来改善语言模型对数学推理的理解与执行能力。通过广泛实验证明,这种策略适用于多种数学推理任务并具有领域通用性。
Mar, 2024
对于指令调优(IT)领域的研究进行了概述,它是增强和可控大型语言模型(LLMs)能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用,并分析了影响 IT 结果的因素(例如,指令输出的生成、指令数据集的大小等)。还审查了 IT 存在的潜在问题以及对其的批评,指出了现有策略的不足之处,并提出了一些有益的研究方向。
Aug, 2023
通过使用编码 - 解码原理,我们引入了 CodecLM,这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中,我们将种子指令转化为元数据,然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本,经过在四个开放领域指令遵循基准测试上的大量实验证明,CodecLM 相对于当前技术水平具有显著的效果。
Apr, 2024
我们提出了一个新的基准测试 CoDI-Eval,系统和全面评估 LLMs 对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源 LLMs 之间存在显著差距。
Jan, 2024