语义问答中千万姓名对一百万实体的评估

Feb, 2022

语义问答中千万姓名对一百万实体的评估

'Tis but Thy Name: Semantic Question Answering Evaluation with 11M Names for 1M Entities

Albert Huang

TL;DR我们介绍了一个语义实体相似度数据集 WES，其中包含 11M 个例子，专注于领域，旨在评估 QA：这些例子是实体和短语，分组为语义聚类以模拟多个 ground-truth 标签，用于预测人类正确性判断的基本交叉编码器度量优于四个经典度量。

Abstract

Classic lexical-matching-based qa metrics are slowly being phased out because they punish succinct or informative outputs just because those answers were not provided as ground truth. Recently proposed neural metrics

qa metrics neural metrics semantic similarity wes dataset cross encoder metric

发现论文，激发创造

语义答案相似度度量评估

提出了利用基于 Transformer 模型度量方法对自然语言生成及问答系统进行语义相似度评估的框架，并使用 US-American public figures 的同指名字对数据集进行训练，取得较高的语义相似度度量结果。

Jun, 2022

用于评估问答模型的语义答案相似度

本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准（SAS），与七种现有度量标准进行比较，并通过人类判断的语义相似性评估数据集检验其性能。结果表明，基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。

Aug, 2021

SQUARE: 使用多个正面和负面参考答案的自动问答评估

使用多个参考答案的评估指标 SQuArE（基于句子级问题回答评估）对句子形式的 QA 系统进行评估，显示其优于以往的基准线，并获得与人工评注最高的相关性。

Sep, 2023

公开域问答的答案等效性问题

本文探讨了利用知识库中的别名实体作为额外的 “金标准答案” 来提高 QA 系统的评估和训练效果，并在三个 QA 基准数据集上验证了其有效性。

Sep, 2021

分治法用于依存关系感知的多跳证据检索

通过考虑多种相关性信号，我们将多跳问题回答的证据检索任务划分为两个子任务：语义文本相似度和推理相似度检索。我们提出了两种集成模型 EAR 和 EARnest，分别处理每个子任务，然后考虑不同的相关性信号对句子进行重新排序。在 HotpotQA 上的实验证明，我们的模型不仅显著优于基于单一检索模型，而且比两个直观的集成基准模型更有效。

Nov, 2023

评估语义解析与基于简单 Web 的问答模型的对比

本文探讨通过与基于抽取网页片段的问答基线相比较，基于语义分析的问答模型的评估方法。在 COMPLEXQUESTIONS 数据集上，我们发现我们的模型获得了合理的表现。

Jul, 2017

透过文本蕴含准确而细致地评估开放问题回答

我们提出研究答案的蕴含关系，以识别更具信息量和更一般化的系统答案，从而更接近人类判断，无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数，实现对答案正确性的细致排序，其 AUC 比目前的方法更高。

May, 2024

Tomayto, Tomahto. 问题回答评估中超越令牌级别答案等价性

这篇研究论文通过定量分析 token-level 等价度量的局限性，提出了一个不对称的答案等价度概念，结合 BERT matching 算法，其结果比传统的 F1 方法更为准确，可用于问题回答的实际应用中来找到最小准确预测集。

Feb, 2022

WikiSQE：维基百科句子质量评估的大规模数据集

提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE，包含了约 340 万句子和 153 个质量标签，并通过机器学习模型进行了实验自动分类，显示具有引文、句法 / 语义或命题问题的句子更难以检测，该数据集在自动化的文章评分实验中表现出更好的泛化性能，并有望成为自然语言处理中其他任务的有价值的资源。

May, 2023

Event-QA: 在知识图谱上进行以事件为中心的问答数据集

本研究介绍了 Event-QA 数据集，该数据集专注于回答关于事件的问题，针对现有 QA 系统和数据集关注于实体问题的情况，提供了一种新的回答事件问题的方法。

Apr, 2020