FollowIR: 评估和教授信息检索模型遵循指导

Mar, 2024

FollowIR: 评估和教授信息检索模型遵循指导

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan...

TL;DR现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR，其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令，只是简单地使用关键词，并且难以理解长篇信息。然而，我们展示了信息检索模型学习遵循复杂指令的可能性：我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进（超过 13%）。

Abstract

Modern large language models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite information retrieval (IR) models using LLMs as the backbone

large language models information retrieval followir instruction evaluation benchmark relevance

发现论文，激发创造

提升指令遵循评估能力的研究：以摘要为例的案例研究

通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于 LLM 的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。

Oct, 2023

INSTRUCTIR: 信息检索模型执行指令遵循的基准

提出一种新的基准测试模型 INSTRUCTIR，专门设计用于评估信息检索任务中的指令遵循能力。通过实验分析，观察到调整了任务风格指令的检索器在性能上可能不如未调整的对照组，凸显了在构建现有的指令感知检索数据集上训练检索器时存在的过度拟合问题。

Feb, 2024

大型语言模型的指令跟随评估

通过引入 Instruction-Following Eval (IFEval) 作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组 “可验证指令”，并构建了约 500 个提示，每个提示包含一个或多个可验证指令。

Nov, 2023

推荐作为指令跟随：一个拥有大型语言模型的推荐方法

该论文提出了一种以自然语言为指令的方法来开发推荐模型，这种方法可以更好地适应用户需求，实现个性化推荐，并在真实数据集上比多个竞争基线模型表现更优。

May, 2023

评估大型语言模型在故事结局生成中的指令遵循能力

通过自动评估流程，本文提出的评估度量与人工评估结果吻合，验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。

Jun, 2024

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准 LMMBar，调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力，发现不同评估器对 LMMBar 的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

你真的跟随我吗？评估大型语言模型的稳健性的对抗性指令

通过实验，我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性，并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。

Aug, 2023

评估问题回答的指令遵循模型的准确性和忠实性

研究中使用检索辅助的指令跟随模型在信息搜索问答任务中的性能表现，并分析了传统指标的不足之处，提出了反映这些模型真实性能的简单基于词汇重叠和模型的度量标准。研究发现，指令跟随模型在正确性方面具有一定竞争力，甚至有时优于微调模型，但在基于提供的知识的还原度上存在困难，经常出现虚构回答。

Jul, 2023

遵循指示语音识别

通过指令跟随训练，我们的研究发现自由文本指令的语音识别能力可以通过 Listen-Attend-Spell 模型来实现，利用这种方法可以进行各种语音识别任务，提供了对先前的 LLMs 模型更高的隐私性和安全性。

Sep, 2023

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

这篇论文介绍了 FollowEval 基准测试，通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现，测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度，并发现这些模型在指令跟随能力方面明显落后于人类，指出了这些模型在这方面还有很大的改进空间。

Nov, 2023