公开域问答的答案等效性问题

EMNLPSep, 2021

What's in a Name? Answer Equivalence For Open-Domain Question Answering

Chenglei Si, Chen Zhao, Jordan Boyd-Graber

TL;DR本文探讨了利用知识库中的别名实体作为额外的 “金标准答案” 来提高 QA 系统的评估和训练效果，并在三个 QA 基准数据集上验证了其有效性。

Abstract

A flaw in qa evaluation is that annotations often only provide one gold answer. Thus, model predictions semantically equivalent to the answer but superficially different are considered incorrect. This work explores mining →

qa evaluation alias entities gold answers model training exact match score

发现论文，激发创造

Tomayto, Tomahto. 问题回答评估中超越令牌级别答案等价性

这篇研究论文通过定量分析 token-level 等价度量的局限性，提出了一个不对称的答案等价度概念，结合 BERT matching 算法，其结果比传统的 F1 方法更为准确，可用于问题回答的实际应用中来找到最小准确预测集。

Feb, 2022

在大语言模型时代评估开放领域问答

通过人工评估，我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果，且所有模型的真实性能均被显著低估，同时超过 50％的词汇匹配失败归因于意义相当的答案，正则匹配排名与人类判断一致

May, 2023

透过文本蕴含准确而细致地评估开放问题回答

我们提出研究答案的蕴含关系，以识别更具信息量和更一般化的系统答案，从而更接近人类判断，无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数，实现对答案正确性的细致排序，其 AUC 比目前的方法更高。

May, 2024

语义问答中千万姓名对一百万实体的评估

我们介绍了一个语义实体相似度数据集 WES，其中包含 11M 个例子，专注于领域，旨在评估 QA：这些例子是实体和短语，分组为语义聚类以模拟多个 ground-truth 标签，用于预测人类正确性判断的基本交叉编码器度量优于四个经典度量。

Feb, 2022

实体驱动的答案集扩展用于问答评估

基于实体驱动的答案集扩展方法，通过扩展黄金答案集以包括多样性的表述形式，其表述形式常遵循特定模式，实验结果表明，该方法在传统评估方法基础上表现出色，并且具有较高的可解释性和减少环境危害的优点。

Apr, 2024

CFMatch: 自动化答案等效评估与专家判断在开放域问答中的对齐

通过采用职业人员 QA 竞赛来评估机器 QA 中答案的正确性，结合标准评估和一种更高效、稳健、轻量级的基于偏差 AE 分类器的匹配方法（CFMatch，小于 1 MB），培训和验证以更准确地评估答案的正确性，使得 QA 能够进一步发展。

Jan, 2024

EntQA: 实体链接问答

EntQA 模型通过借鉴问题解答技术，在不需要已知实体的情况下，快速定位文档中的潜在实体，并在 GERBIL 基准测试中获得了良好的结果。

Oct, 2021

语义答案相似度度量评估

提出了利用基于 Transformer 模型度量方法对自然语言生成及问答系统进行语义相似度评估的框架，并使用 US-American public figures 的同指名字对数据集进行训练，取得较高的语义相似度度量结果。

Jun, 2022

一个基于问题蕴涵的问答方法

本文提出了一种新的基于问题蕴含识别（Recognizing Question Entailment）的问答（Question Answering）方法，基于机器学习和深度学习算法，结合信息检索模型，在医疗领域实现了显著的问答准确率提升。

Jan, 2019

评估开放式问答系统评估

本研究针对认知智能领域中的 Open Question Answering 任务进行评估，提出了 QA Evaluation 任务和相应的数据集，在考虑到自动评估方法的局限性的基础上，采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数，并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷，最终生成的数据集有望促进更有效的自动评估工具的发展。

May, 2023