评估问题回答的指令遵循模型的准确性和忠实性

Jul, 2023

评估问题回答的指令遵循模型的准确性和忠实性

Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering

Vaibhav Adlakha, Parishad BehnamGhader, Xing Han Lu, Nicholas Meade, Siva Reddy

TL;DR研究中使用检索辅助的指令跟随模型在信息搜索问答任务中的性能表现，并分析了传统指标的不足之处，提出了反映这些模型真实性能的简单基于词汇重叠和模型的度量标准。研究发现，指令跟随模型在正确性方面具有一定竞争力，甚至有时优于微调模型，但在基于提供的知识的还原度上存在困难，经常出现虚构回答。

Abstract

retriever-augmented instruction-following models are attractive alternatives to fine-tuned approaches for information-seeking tasks such as question answering (QA). By simply prepending retrieved documents in its

retriever-augmented instruction-following models information-seeking tasks question answering model performance holistic evaluation

发现论文，激发创造

FollowIR: 评估和教授信息检索模型遵循指导

现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR，其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令，只是简单地使用关键词，并且难以理解长篇信息。然而，我们展示了信息检索模型学习遵循复杂指令的可能性：我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进（超过 13%）。

Mar, 2024

提升指令遵循评估能力的研究：以摘要为例的案例研究

通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于 LLM 的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。

Oct, 2023

FEQA: 抽象摘要中忠实度评估的问答评估框架

该研究提出了一种基于自动问答的 faithfulness 评估度量方式（FEQA），并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。

May, 2020

通过口头化调整进行命令跟踪评估

我们提出了一种名为 verbalizer manipulation 的新型指令跟踪评估协议，该协议通过使用高度匹配到轻微匹配的语言转化器，结合任何分类基准来检查模型对先验知识的依赖程度以及其是否能准确遵循指令。我们对四个重要的模型系列进行了全面评估，使用了每个系列的十二组语言转化器，发现模型在不同系列和规模上的指令遵循能力在较不自然的语言转化器上有明显差异。即使是最强大的 GPT-4 模型在最具挑战性的语言转化器上也难以比随机猜测更好，强调了需要持续进步来改善其指令遵循能力。

Jul, 2023

指令采集：大型语言模型高质量指令数据选取

本文提出了 InstructMining 用于评估指令遵循数据的质量，并使用该方法选择高质量数据进行 Fei 调。研究结果表明，使用 InstructMining 所选择的数据集表现出更优的性能。

Jul, 2023

在大语言模型时代评估开放领域问答

通过人工评估，我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果，且所有模型的真实性能均被显著低估，同时超过 50％的词汇匹配失败归因于意义相当的答案，正则匹配排名与人类判断一致

May, 2023

INSTRUCTIR: 信息检索模型执行指令遵循的基准

提出一种新的基准测试模型 INSTRUCTIR，专门设计用于评估信息检索任务中的指令遵循能力。通过实验分析，观察到调整了任务风格指令的检索器在性能上可能不如未调整的对照组，凸显了在构建现有的指令感知检索数据集上训练检索器时存在的过度拟合问题。

Feb, 2024

忽略不计：大型语言模型中的指令覆盖和调控

最近的大型语言模型在指令遵循的冲突情况下进行了调查和基准测试，对比了最流行的专有模型和不同大小的开源模型。实验表明，较大的模型在遵循指令方面表现最佳，并且对内部和上下文指令具有覆盖能力。然而，在进行长上下文的缩放时需要保持与困惑度边缘的显著缓冲区，以保持指令遵循能力。此外，提高指令遵循与遵循给定安全过滤器或指南的能力相互冲突，因此我们认为处理安全可信人工智能的最有效方法应该是在语言模型之外进行。

Feb, 2024

为复杂信息抽取任务微调和对齐问答模型

使用提取式 QA 模型进行特征提取的方法可改善德语商业文档的信息提取，并通过微调现有德语 QA 模型提高性能，同时还讨论了评估信息提取任务的相关度得分指标。

Sep, 2023

FactLLaMA: 使用外部知识优化指令跟随语言模型以进行自动事实检验

结合外部证据检索并利用这些证据对指令遵循的语言模型进行指导调优，从而提高事实核实任务的性能。

Sep, 2023