大型语言模型对指令的稳健性评估
通过对自然语言指令模板中的60个自然语言处理任务进行调整,我们将一个137B预训练语言模型调整为FLAN并在未看见的任务数据上进行评估,结果表明,通过指令调整,可以大大改善它在未看见任务上的性能并在20个任务上超越了175B GPT-3的零样本性能。
Sep, 2021
本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法,重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调,发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别,在零样本、少样本和 CoT 环境中的表现,以及在多项基准测试中的表现。
Oct, 2022
对于指令调优(IT)领域的研究进行了概述,它是增强和可控大型语言模型(LLMs)能力的关键技术。该研究系统回顾了IT的一般方法论、IT数据集的构建、IT模型的训练以及不同模态、领域和应用的应用,并分析了影响IT结果的因素(例如,指令输出的生成、指令数据集的大小等)。还审查了IT存在的潜在问题以及对其的批评,指出了现有策略的不足之处,并提出了一些有益的研究方向。
Aug, 2023
本研究通过对指导数据集的混合类型进行分类和研究,发现特定类型的指导对于特定用途更有益处,但可能对其他方面造成伤害,强调了精心设计指导混合以最大化模型性能的重要性。该研究对指导混合提出了新观点,并为未来研究铺平了道路。
Dec, 2023
我们提出了一个新的基准测试CoDI-Eval,系统和全面评估LLMs对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。
Jan, 2024
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源LLMs(如LLaMA-2 70B和Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予LLMs执行多个顺序指令的能力。通过探索Alpaca等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024
介绍了一种有效的数据增强技术,通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体,以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性,并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型,在我们的指令追踪基准和常用基准上,发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。
Jun, 2024
本研究开发了一个用于评估语言模型指令遵循能力的基准,存在于验证任务表现和指令遵循能力之间的缺口。我们通过增加条件性指令来改进现有知识基准,从而揭示模型在面临不同指令时的表现变化。研究结果表明,即使是经过大型指令调整的模型,在零-shot设置下仍难以遵循简单指令。
Oct, 2024