忽略不计:大型语言模型中的指令覆盖和调控
通过实验,我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性,并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。
Aug, 2023
该论文提出了一种以自然语言为指令的方法来开发推荐模型,这种方法可以更好地适应用户需求,实现个性化推荐,并在真实数据集上比多个竞争基线模型表现更优。
May, 2023
现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR,其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令,只是简单地使用关键词,并且难以理解长篇信息。然而,我们展示了信息检索模型学习遵循复杂指令的可能性:我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进(超过 13%)。
Mar, 2024
指令微调方法能够增强大型语言模型在未知任务上的零样本功能,并对其性能和稳健性进行了评估,发现在处理陌生指令时性能显著下降,而对于关系抽取指令的稳健性较问答指令更差。
Aug, 2023
这篇研究通过引入一个具有挑战性的元评估基准 LMMBar,调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力,发现不同评估器对 LMMBar 的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
使用包含多个约束条件的指令来训练大型语言模型,能提高其理解复杂指令,特别是对于低复杂性水平的指令,甚至可以推广到超出领域约束的组合,同时提出了获取和利用有效训练数据的方法,并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。
Apr, 2024
今天的 LLMs 容易受到即时注入、越狱和其他攻击的影响,使得恶意提示可以覆盖模型的初始指令。本文提出一种指令层次结构,明确定义了在不同优先级指令冲突时模型应该如何行为,并提出了一种数据生成方法来展示这种层次指令遵循行为,教导 LLMs 有选择性地忽略低权限指令。我们将这种方法应用于 GPT-3.5 上,展示它显著增加了鲁棒性,甚至对训练期间未见的攻击类型,同时对标准能力的降低影响很小。
Apr, 2024
通过自动评估流程,本文提出的评估度量与人工评估结果吻合,验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。
Jun, 2024
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024