缩小知识评估差距：多层次答案的开放领域问题回答

Jan, 2024

缩小知识评估差距：多层次答案的开放领域问题回答

Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers

Gal Yona, Roee Aharoni, Mor Geva

TL;DR标准问答评估协议未考虑到答案的多粒度性质，与单一粒度的参考答案进行比较。本研究提出 GRANOLA QA 评估设置，用于多粒度答案的准确性和信息量评估。通过对现有数据集进行改进，建立了 GRANOLA-EQ 多粒度实体问题数据集，并在 GRANOLA-EQ 上评估了一系列解码方法，包括 DRAG 算法。实验证明，大型语言模型在标准解码下往往生成具体但错误答案，而 DRAG 算法在多粒度答案上平均提高了近 20 个百分点的准确性，对于罕见实体进一步提高。总体而言，这表明标准评估和解码方法可能严重低估了语言模型所包含的知识。

Abstract

Factual questions typically can be answered correctly at different levels of granularity. For example, both ``August 4, 1961'' and ``1961'' are correct answers to the question ``When was Barack Obama born?''. Standard question answering (QA) evaluation protocols, however, do not explicitly take this into account and compare a predicted answer against answers

multi-granularity answers granola qa decoding methods drag knowledge encapsulated

发现论文，激发创造

多粒度引导的解码中融合

在开放领域问答系统中，为了避免检索到的结果中出现不相关和虚假的上下文，通过多层次的粒度来识别相关证据的融合解码器模型被提出，该模型在多任务学习的基础上，通过将显著的句子聚合为一个锚向量来指导解码器，并通过复用重排列结果来提高解码效率。实验证明，该模型在自然问题和文学问题数据集上的性能优于现有模型，凸显了其多粒度解决方案的好处。

Apr, 2024

通过异构知识的推理链进行开放域问答

提出一种新颖的开放领域问答框架，使用中介模块对异构知识源上的单跳 / 多跳问题进行回答。在预训练语言模型的基础上，通过将检索到的证据与其相关的全局上下文链接到图中，并将它们组织成候选证据链，实现了竞争性的性能。在两个 ODQA 数据集 OTT-QA 和 NQ 上，我们的模型显著优于之前最先进的方法，在 OTT-QA 上具有 47.3 的精确匹配分数（相对增益 45%）。

Oct, 2022

利用知识库和文本的早期融合进行开放领域问答

该论文提出了一种新模型 Graft-Net，应用于 Open Domain Question Answering 问题，该模型结合了文本和知识库并利用子图表示法以提高效率和准确度

Sep, 2018

TIARA: 大规模知识库中鲁棒性问答的多粒度检索

本文提出一种新的知识库问答模型 TIARA，通过多粒度检索帮助预训练语言模型集中于最相关的知识库上下文，并应用约束解码来控制输出空间并减少生成错误。实验证明，TIARA 在 GrailQA 和 WebQuestionsSP 等基准测试中表现出色，相比使用预训练语言模型或网络实体注释的先前 SOTA，至少在 F1 值上分别提高了 4.1 和 1.1 个百分点。

Oct, 2022

在实体类别跨度上混合上下文粒度以提高问题回答数据的实体链接

研究实体链接及其在知识库问答中的应用，提出了一种使用不同粒度的上下文信息进行实体提及检测和消岐的神经网络架构，并使用 Wikidata 知识库建立了实体链接的问答数据基准。该方法在此数据上优于先前的最先进系统，结果平均得分提高了 8％，并且在不同实体类别上表现良好。

Apr, 2018

在大语言模型时代评估开放领域问答

通过人工评估，我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果，且所有模型的真实性能均被显著低估，同时超过 50％的词汇匹配失败归因于意义相当的答案，正则匹配排名与人类判断一致

May, 2023

MuGER$^2$: 多粒度证据检索和推理用于混合问答

提出了一种名为 MuGER^2 的多粒度证据检索和推理方法，通过设计统一的检索器来学习异构数据的多粒度证据，在回答推理中，提出了一个证据选择器，基于学习到的多颗粒度证据导航细粒度证据，显著提高混合问题回答（HQA）的绩效。

Oct, 2022

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

透过文本蕴含准确而细致地评估开放问题回答

我们提出研究答案的蕴含关系，以识别更具信息量和更一般化的系统答案，从而更接近人类判断，无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数，实现对答案正确性的细致排序，其 AUC 比目前的方法更高。

May, 2024

询问以理解：多跳问答问题生成

本文提出了一种基于问题生成的新型多跳问答方法，通过精心设计端到端的 QG 模块，在上下文理解中提出内在逻辑子问题，从而继承了 QD 方法的可解释性并表现出较高的性能。实验证明，我们提出的 QG 模块是有效的，在流畅性、一致性和多样性方面优于 QD 方法，并获得了人工评估的定量可解释性。

Mar, 2022