指令混合:通过多样系统提示指令对大型语言模型进行全面对齐
本研究提出了 Instruct-Align 框架,通过对称对齐方法的跨语言指导调整,使大语言模型 (LLMs) 能够有效地学习新语言,同时通过经验重现防止灾难性遗忘,并能将低资源语言纳入到现有的 LLMs 中。
May, 2023
我们引入了 MIA-Bench,一个新的基准测试,旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型,我们发现性能存在显著差异,突出了指令准确性方面的改进空间。此外,我们创建了额外的训练数据,并探索监督微调来提高模型在严格遵循指令的能力,而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度,还能指导未来的多模态大型语言模型训练方法的发展。
Jul, 2024
本文研究现有的代码生成方法的性能限制,并引入了一种新的方法 Instruction Fusion(IF),该方法通过混合两个不同的提示来增强代码 LLM 的训练提示的演化,实验结果显示该方法显著改善了代码 LLM 在五个代码生成基准测试中的性能。
Dec, 2023
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024
改进大型语言模型的细化调整方法,通过使用多样的组合指令集合,提高了模型对不同任务的泛化性能;引入了链式指令的新概念(CoI),使模型能够处理由多个子任务组成的复合指令,将模型性能在多语言摘要生成任务中进行了验证。
Feb, 2024
该研究引入对比对齐指令(AlignInstruct)来解决机器翻译在大型语言模型上的两个挑战,即将支持的语言扩展到之前未曾见过的语言和低资源语言中数据匮乏问题。通过机器翻译指令(MTInstruct)对模型进行微调是解决第一个挑战的一种简单方法。然而,MTInstruct 受第二个挑战中固有的弱跨语言信号的限制。AlignInstruct 强调通过使用统计词对齐构建的跨语言鉴别器进行跨语言监督。研究结果表明,对 BLOOMZ 模型(1b1,3b 和 7b1)在多达 24 种未见过的语言上进行微调,得出以下结论:(1)LLM 可以有效地使用 MTInstruct 对未见过的语言进行翻译;(2)AlignInstruct 在涉及英语的 48 个翻译方向上改进了翻译质量的一致性;(3)基于鉴别器的指令表现优于其生成的对等物作为跨语言指令;(4)AlignInstruct 在 30 个零翻译方向上改善了性能。
Jan, 2024
通过使用编码 - 解码原理,我们引入了 CodecLM,这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中,我们将种子指令转化为元数据,然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本,经过在四个开放领域指令遵循基准测试上的大量实验证明,CodecLM 相对于当前技术水平具有显著的效果。
Apr, 2024
综合评估了多模态大型语言模型的指导遵循能力,并引入了 I4 基准测试,提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略,从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah,达到了 I4 中所有任务的零样本表现的最新水平,并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。
Aug, 2023