通过口头化调整进行命令跟踪评估

Jul, 2023

通过口头化调整进行命令跟踪评估

Instruction-following Evaluation through Verbalizer Manipulation

Shiyang Li, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren...

TL;DR我们提出了一种名为 verbalizer manipulation 的新型指令跟踪评估协议，该协议通过使用高度匹配到轻微匹配的语言转化器，结合任何分类基准来检查模型对先验知识的依赖程度以及其是否能准确遵循指令。我们对四个重要的模型系列进行了全面评估，使用了每个系列的十二组语言转化器，发现模型在不同系列和规模上的指令遵循能力在较不自然的语言转化器上有明显差异。即使是最强大的 GPT-4 模型在最具挑战性的语言转化器上也难以比随机猜测更好，强调了需要持续进步来改善其指令遵循能力。

Abstract

While instruction-tuned models have shown remarkable success in various natural language processing tasks, accurately evaluating their ability to follow instructions remains challenging. Existing benchmarks primarily focus on common instructions that align well with what the model lear

instruction-tuned models instruction following verbalizer manipulation classification benchmark instruction-following abilities

发现论文，激发创造

评估大型语言模型在故事结局生成中的指令遵循能力

通过自动评估流程，本文提出的评估度量与人工评估结果吻合，验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。

Jun, 2024

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

这篇论文介绍了 FollowEval 基准测试，通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现，测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度，并发现这些模型在指令跟随能力方面明显落后于人类，指出了这些模型在这方面还有很大的改进空间。

Nov, 2023

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准 LMMBar，调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力，发现不同评估器对 LMMBar 的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

提升指令遵循评估能力的研究：以摘要为例的案例研究

通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于 LLM 的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。

Oct, 2023

FollowIR: 评估和教授信息检索模型遵循指导

现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR，其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令，只是简单地使用关键词，并且难以理解长篇信息。然而，我们展示了信息检索模型学习遵循复杂指令的可能性：我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进（超过 13%）。

Mar, 2024

面向指令跟随的基于对齐的组合语义学

本研究提出一种基于对齐的模型，通过在文本和环境观测的情况下，对行动序列进行评分以实现指令的跟随，模型将语音意义和实际需求结合起来，并在多项基准测试中优于强任务特定的基线，取得了几项最新的业绩。

Aug, 2015

InstructionGPT-4：Fine-Tuning MiniGPT-4 的 200 指令范式

通过在图像文本对上进行预训练和在受监督的视觉语言指导数据上进行微调的两阶段训练，多模态大型语言模型实现了其遵循指令的能力。本文介绍了 InstructionGPT-4，该模型在仅包括 200 个示例的小数据集上进行了微调，相当于 MiniGPT-4 对齐数据集中使用的指令遵循数据的约 6％。我们首先提出了几个用于评估多模态指令数据质量的度量标准。基于这些度量标准，我们提出了一种简单而有效的数据选择器，用于自动识别和过滤低质量的视觉语言数据。采用这种方法，InstructionGPT-4 在各种评估（如视觉问答、GPT-4 偏好）上的表现优于原始的 MiniGPT-4。总的来说，我们的研究结果表明，较少但高质量的微调数据能够有效地提高多模态大型语言模型的输出质量。

Aug, 2023

评估问题回答的指令遵循模型的准确性和忠实性

研究中使用检索辅助的指令跟随模型在信息搜索问答任务中的性能表现，并分析了传统指标的不足之处，提出了反映这些模型真实性能的简单基于词汇重叠和模型的度量标准。研究发现，指令跟随模型在正确性方面具有一定竞争力，甚至有时优于微调模型，但在基于提供的知识的还原度上存在困难，经常出现虚构回答。

Jul, 2023

遵循指示语音识别

通过指令跟随训练，我们的研究发现自由文本指令的语音识别能力可以通过 Listen-Attend-Spell 模型来实现，利用这种方法可以进行各种语音识别任务，提供了对先前的 LLMs 模型更高的隐私性和安全性。

Sep, 2023

从指令中预测第三方语言模型的性能

在现代自然语言处理系统中，基于语言模型的指令跟随系统表现出越来越高的性能，但这些系统往往没有透明度，缺乏明确的性能限制，因此我们提出了一种第三方性能预测框架，通过训练一个独立的模型来预测在任务中评估指令跟随系统时的指标结果，从而揭示现代指令跟随自然语言处理系统的局限性。

Mar, 2024