公开域问答的答案等效性问题
这篇研究论文通过定量分析 token-level 等价度量的局限性,提出了一个不对称的答案等价度概念,结合 BERT matching 算法,其结果比传统的 F1 方法更为准确,可用于问题回答的实际应用中来找到最小准确预测集。
Feb, 2022
通过人工评估,我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果,且所有模型的真实性能均被显著低估,同时超过 50%的词汇匹配失败归因于意义相当的答案, 正则匹配排名与人类判断一致
May, 2023
我们提出研究答案的蕴含关系,以识别更具信息量和更一般化的系统答案,从而更接近人类判断,无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数,实现对答案正确性的细致排序,其 AUC 比目前的方法更高。
May, 2024
我们介绍了一个语义实体相似度数据集 WES,其中包含 11M 个例子,专注于领域,旨在评估 QA:这些例子是实体和短语,分组为语义聚类以模拟多个 ground-truth 标签,用于预测人类正确性判断的基本交叉编码器度量优于四个经典度量。
Feb, 2022
基于实体驱动的答案集扩展方法,通过扩展黄金答案集以包括多样性的表述形式,其表述形式常遵循特定模式,实验结果表明,该方法在传统评估方法基础上表现出色,并且具有较高的可解释性和减少环境危害的优点。
Apr, 2024
通过采用职业人员 QA 竞赛来评估机器 QA 中答案的正确性,结合标准评估和一种更高效、稳健、轻量级的基于偏差 AE 分类器的匹配方法(CFMatch,小于 1 MB),培训和验证以更准确地评估答案的正确性,使得 QA 能够进一步发展。
Jan, 2024
提出了利用基于 Transformer 模型度量方法对自然语言生成及问答系统进行语义相似度评估的框架,并使用 US-American public figures 的同指名字对数据集进行训练,取得较高的语义相似度度量结果。
Jun, 2022
本文提出了一种新的基于问题蕴含识别(Recognizing Question Entailment)的问答(Question Answering)方法,基于机器学习和深度学习算法,结合信息检索模型,在医疗领域实现了显著的问答准确率提升。
Jan, 2019
本研究针对认知智能领域中的 Open Question Answering 任务进行评估,提出了 QA Evaluation 任务和相应的数据集,在考虑到自动评估方法的局限性的基础上,采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数,并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷,最终生成的数据集有望促进更有效的自动评估工具的发展。
May, 2023