对比教学调节

Feb, 2024

Contrastive Instruction Tuning

Tianyi Yan, Fei Wang, James Y. Huang, Wenxuan Zhou, Fan Yin...

TL;DR指令调优是一种改善大型语言模型对未知任务性能的有前途的方法。然而，当前的大型语言模型在面对未知指令时表现出有限的稳健性，当相同的指令以稍微变形或语言风格变化的形式表达时会生成不一致的输出。这种行为表明大型语言模型对文本变化的稳健性和对未见指令的泛化能力存在缺陷，可能引发不可靠性问题。基于此，我们提出了对比指令调优，该方法通过最大化语义上等效的指令实例对的隐藏表示之间的相似性，最小化不同语义的实例对之间的相似性。为了促进这一方法，我们通过改写任务指令来扩充现有的 FLAN 集合。在 PromptBench 基准测试上的实验证明，对比指令调优（CoIN）能够使大型语言模型在字符、词、句子和语义级别上对未知指令的稳健性得到持续提升，平均准确率提高了 2.5%。

Abstract

instruction tuning has been used as a promising approach to improve the performance of large language models (LLMs) on unseen tasks. However, current LLMs exhibit limited →

instruction tuning large language models unseen instructions robustness contrastive instruction tuning

发现论文，激发创造

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

CoIN：一个用于多模型大型语言模型的连续指令调整基准测试

通过连续指令调整（CoIN）对多模态大型语言模型（MLLMs）进行评估，发现当前强大的 MLLMs 仍然存在灾难性遗忘，并提出了 MoELoRA 方法有效地保留了以前的指令对齐。

Mar, 2024

使用对比校准指示为未见过的低资源语言中的机器翻译调整 LLMs

该研究引入对比对齐指令（AlignInstruct）来解决机器翻译在大型语言模型上的两个挑战，即将支持的语言扩展到之前未曾见过的语言和低资源语言中数据匮乏问题。通过机器翻译指令（MTInstruct）对模型进行微调是解决第一个挑战的一种简单方法。然而，MTInstruct 受第二个挑战中固有的弱跨语言信号的限制。AlignInstruct 强调通过使用统计词对齐构建的跨语言鉴别器进行跨语言监督。研究结果表明，对 BLOOMZ 模型（1b1，3b 和 7b1）在多达 24 种未见过的语言上进行微调，得出以下结论：（1）LLM 可以有效地使用 MTInstruct 对未见过的语言进行翻译；（2）AlignInstruct 在涉及英语的 48 个翻译方向上改进了翻译质量的一致性；（3）基于鉴别器的指令表现优于其生成的对等物作为跨语言指令；（4）AlignInstruct 在 30 个零翻译方向上改善了性能。

Jan, 2024

使用指令损失进行指令调整

通过实验证明，Instruction Modelling 能够提高语言模型的性能，特别是在指令调整数据集不充足、指令长度与输出长度不匹配以及减少过拟合情况下，对低资源场景中的语言模型进行指令调整提供了实用指南。

May, 2024

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用，并分析了影响 IT 结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了 IT 存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

大型语言模型对指令的稳健性评估

指令微调方法能够增强大型语言模型在未知任务上的零样本功能，并对其性能和稳健性进行了评估，发现在处理陌生指令时性能显著下降，而对于关系抽取指令的稳健性较问答指令更差。

Aug, 2023

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

指令链式编排：大型语言模型上的组合指令调整

改进大型语言模型的细化调整方法，通过使用多样的组合指令集合，提高了模型对不同任务的泛化性能；引入了链式指令的新概念（CoI），使模型能够处理由多个子任务组成的复合指令，将模型性能在多语言摘要生成任务中进行了验证。

Feb, 2024

上下文指导学习

本文发现采用上下文学习作为指示学习方法（ICIL）可提高预训练和指示微调模型的零样本任务泛化能力，使用固定的单一提示来评估所有任务。

Feb, 2023

指令调整将 LLMs 对齐到人脑

指导调优对大型语言模型（LLMs）进行调优的普遍方法，能够使其生成更接近自然语言查询的人类响应的输出，在许多情况下在各种测试中实现人类水平的性能。然而，指导调优是否真正使 LLMs 更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对 LLM-human 相似性的影响：(1) 大脑对齐，即 LLM 内部表示与人类语言系统的神经活动相似度，(2) 行为对齐，即 LLM 和人类在阅读任务上的行为相似度。我们评估了 25 个原始版本和经过指导调优的 LLMs 在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均 6％，但对行为对齐没有类似效果。为了确定影响 LLM-brain 对齐的因素，我们计算了 LLMs 的大脑对齐与各种模型特性之间的相关性，如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是，我们发现大脑对齐和模型大小（r = 0.95）以及需要世界知识的任务的表现（r = 0.81）之间存在强正相关。我们的结果表明，指导调优 LLMs 可以改善世界知识表示和大脑对齐，这表明在 LLMs 中编码世界知识的机制也可以改善与人类大脑的表征对齐。

Dec, 2023