忽略不计：大型语言模型中的指令覆盖和调控

Feb, 2024

忽略不计：大型语言模型中的指令覆盖和调控

Nevermind: Instruction Override and Moderation in Large Language Models

Edward Kim

TL;DR最近的大型语言模型在指令遵循的冲突情况下进行了调查和基准测试，对比了最流行的专有模型和不同大小的开源模型。实验表明，较大的模型在遵循指令方面表现最佳，并且对内部和上下文指令具有覆盖能力。然而，在进行长上下文的缩放时需要保持与困惑度边缘的显著缓冲区，以保持指令遵循能力。此外，提高指令遵循与遵循给定安全过滤器或指南的能力相互冲突，因此我们认为处理安全可信人工智能的最有效方法应该是在语言模型之外进行。

Abstract

Given the impressive capabilities of recent large language models (LLMs), we investigate and benchmark the most popular proprietary and different sized open source models on the task of explicit instruction following

large language models instruction following overrides knowledge extraction safety filters

发现论文，激发创造

你真的跟随我吗？评估大型语言模型的稳健性的对抗性指令

通过实验，我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性，并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。

Aug, 2023

推荐作为指令跟随：一个拥有大型语言模型的推荐方法

该论文提出了一种以自然语言为指令的方法来开发推荐模型，这种方法可以更好地适应用户需求，实现个性化推荐，并在真实数据集上比多个竞争基线模型表现更优。

May, 2023

FollowIR: 评估和教授信息检索模型遵循指导

现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR，其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令，只是简单地使用关键词，并且难以理解长篇信息。然而，我们展示了信息检索模型学习遵循复杂指令的可能性：我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进（超过 13%）。

Mar, 2024

大型语言模型对指令的稳健性评估

指令微调方法能够增强大型语言模型在未知任务上的零样本功能，并对其性能和稳健性进行了评估，发现在处理陌生指令时性能显著下降，而对于关系抽取指令的稳健性较问答指令更差。

Aug, 2023

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准 LMMBar，调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力，发现不同评估器对 LMMBar 的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

大型语言模型中的指导位置在序列生成中的作用

通过改变任务指令在输入句子之后的位置，我们提出了一种增强大型语言模型的指令遵循功能的方法，该方法可以显著改善条件序列生成的零样本性能。

Aug, 2023

从复杂到简单：增强大型语言模型的多约束复合指令跟随能力

使用包含多个约束条件的指令来训练大型语言模型，能提高其理解复杂指令，特别是对于低复杂性水平的指令，甚至可以推广到超出领域约束的组合，同时提出了获取和利用有效训练数据的方法，并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。

Apr, 2024

指令层次结构：训练 LLMs 优先处理特权指令

今天的 LLMs 容易受到即时注入、越狱和其他攻击的影响，使得恶意提示可以覆盖模型的初始指令。本文提出一种指令层次结构，明确定义了在不同优先级指令冲突时模型应该如何行为，并提出了一种数据生成方法来展示这种层次指令遵循行为，教导 LLMs 有选择性地忽略低权限指令。我们将这种方法应用于 GPT-3.5 上，展示它显著增加了鲁棒性，甚至对训练期间未见的攻击类型，同时对标准能力的降低影响很小。

Apr, 2024

评估大型语言模型在故事结局生成中的指令遵循能力

通过自动评估流程，本文提出的评估度量与人工评估结果吻合，验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。

Jun, 2024

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024