透过文本蕴含准确而细致地评估开放问题回答

ACLMay, 2024

透过文本蕴含准确而细致地评估开放问题回答

Accurate and Nuanced Open-QA Evaluation Through Textual Entailment

Peiran Yao, Denilson Barbosa

TL;DR我们提出研究答案的蕴含关系，以识别更具信息量和更一般化的系统答案，从而更接近人类判断，无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数，实现对答案正确性的细致排序，其 AUC 比目前的方法更高。

Abstract

open-domain question answering (Open-QA) is a common task for evaluating large language models (LLMs). However, current Open-QA evaluations

open-domain question answering large language models evaluations entailment relations inference gap

发现论文，激发创造

一个基于问题蕴涵的问答方法

本文提出了一种新的基于问题蕴含识别（Recognizing Question Entailment）的问答（Question Answering）方法，基于机器学习和深度学习算法，结合信息检索模型，在医疗领域实现了显著的问答准确率提升。

Jan, 2019

在大语言模型时代评估开放领域问答

通过人工评估，我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果，且所有模型的真实性能均被显著低估，同时超过 50％的词汇匹配失败归因于意义相当的答案，正则匹配排名与人类判断一致

May, 2023

评估开放式问答系统评估

本研究针对认知智能领域中的 Open Question Answering 任务进行评估，提出了 QA Evaluation 任务和相应的数据集，在考虑到自动评估方法的局限性的基础上，采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数，并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷，最终生成的数据集有望促进更有效的自动评估工具的发展。

May, 2023

使用蕴涵树解释答案

通过生成包含多前提蕴含步骤（即知识事实到问题答案的中间推理结论）的蕴含树形式的解释，本研究提出第一个含有多步蕴含树的数据集 ENTAILMENTBANK，用于培训模型执行三项解释任务。结果表明，当输入包含相关句子时（例如，任务（a）的 35% 结果完美），强大的语言模型能部分地解决这些任务，并具有推广到其他领域的迹象。

Apr, 2021

EntQA: 实体链接问答

EntQA 模型通过借鉴问题解答技术，在不需要已知实体的情况下，快速定位文档中的潜在实体，并在 GERBIL 基准测试中获得了良好的结果。

Oct, 2021

DEXTER：使用 LLMs 进行开放域复杂问题回答的基准测试

通过建立一个包含多样化复杂问答任务的基准以及提供工具包，在开放领域环境中评估先进的预训练密集和稀疏检索模型，本研究旨在解决开放领域复杂问答中证据检索和推理的挑战。我们观察到晚期交互模型和词汇模型（如 BM25）表现较好，此外，我们还评估了 LLMs 的推理能力以及检索性能对其推理能力的影响，通过实验证实，要改进复杂问答的下游性能，还有很多待办之事。

Jun, 2024

分治法用于依存关系感知的多跳证据检索

通过考虑多种相关性信号，我们将多跳问题回答的证据检索任务划分为两个子任务：语义文本相似度和推理相似度检索。我们提出了两种集成模型 EAR 和 EARnest，分别处理每个子任务，然后考虑不同的相关性信号对句子进行重新排序。在 HotpotQA 上的实验证明，我们的模型不仅显著优于基于单一检索模型，而且比两个直观的集成基准模型更有效。

Nov, 2023

QAFactEval：基于 QA 的摘要事实一致性评估的改进

本文针对文本摘要模型中的事实一致性问题展开研究，对比了基于蕴含和基于问答的度量方法，并且提出了一种优化的基于问答的度量方法 QAFactEval，相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能，并且在最好的基于蕴含的方法之上表现更佳。此外，我们发现基于问答和基于蕴含的度量方法可以互补，结合起来可以提高摘要模型的性能

Dec, 2021

利用大型语言模型改进自动 VQA 评估

借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

Oct, 2023

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024