大型语言模型对指令的稳健性评估
通过对自然语言指令模板中的 60 个自然语言处理任务进行调整,我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估,结果表明,通过指令调整,可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。
Sep, 2021
评估四个最先进的面向指令的大型语言模型(ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca)在 13 项真实世界的临床和生物医学自然语言处理(NLP)任务,如命名实体识别(NER)、问答(QA)、关系抽取(RE)等方面的表现。总体结果表明,评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能,尤其在 QA 任务中表现出色,即使它们之前从未见过这些任务的示例。然而,我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型(如 PubMedBERT)所能达到的水平。最后,我们注意到没有一个语言模型在所有研究任务中都胜过其他模型,某些模型在特定任务中更适合。
Jul, 2023
本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法,重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调,发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别,在零样本、少样本和 CoT 环境中的表现,以及在多项基准测试中的表现。
Oct, 2022
通过实验,我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性,并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。
Aug, 2023
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024
通过本研究,我们发现指导微调对大型语言模型产生了三个重要影响,包括了对指令识别的加强、对知识存储层次的对齐以及对单词关系学习的促进。这些发现有助于更深入地理解指导微调对大型语言模型行为变化的影响,并为未来解释和优化这些模型以适用于不同应用领域的研究打下了基础。
Sep, 2023
指令调优是一种改善大型语言模型对未知任务性能的有前途的方法。然而,当前的大型语言模型在面对未知指令时表现出有限的稳健性,当相同的指令以稍微变形或语言风格变化的形式表达时会生成不一致的输出。这种行为表明大型语言模型对文本变化的稳健性和对未见指令的泛化能力存在缺陷,可能引发不可靠性问题。基于此,我们提出了对比指令调优,该方法通过最大化语义上等效的指令实例对的隐藏表示之间的相似性,最小化不同语义的实例对之间的相似性。为了促进这一方法,我们通过改写任务指令来扩充现有的 FLAN 集合。在 PromptBench 基准测试上的实验证明,对比指令调优(CoIN)能够使大型语言模型在字符、词、句子和语义级别上对未知指令的稳健性得到持续提升,平均准确率提高了 2.5%。
Feb, 2024
通过将关系抽取与常见的指令调整任务(如问答)对齐,我们提出了 QA4RE 框架,对 LLM 进行零样本学习任务的实验表明,该框架可显著提高 LLM 的性能,并使其在挑战性和不常见的任务上胜过强零样本基线。
May, 2023