语义问答中千万姓名对一百万实体的评估
提出了利用基于 Transformer 模型度量方法对自然语言生成及问答系统进行语义相似度评估的框架,并使用 US-American public figures 的同指名字对数据集进行训练,取得较高的语义相似度度量结果。
Jun, 2022
本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准(SAS),与七种现有度量标准进行比较,并通过人类判断的语义相似性评估数据集检验其性能。结果表明,基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。
Aug, 2021
使用多个参考答案的评估指标 SQuArE(基于句子级问题回答评估)对句子形式的 QA 系统进行评估,显示其优于以往的基准线,并获得与人工评注最高的相关性。
Sep, 2023
通过考虑多种相关性信号,我们将多跳问题回答的证据检索任务划分为两个子任务:语义文本相似度和推理相似度检索。我们提出了两种集成模型 EAR 和 EARnest,分别处理每个子任务,然后考虑不同的相关性信号对句子进行重新排序。在 HotpotQA 上的实验证明,我们的模型不仅显著优于基于单一检索模型,而且比两个直观的集成基准模型更有效。
Nov, 2023
本文探讨通过与基于抽取网页片段的问答基线相比较,基于语义分析的问答模型的评估方法。在 COMPLEXQUESTIONS 数据集上,我们发现我们的模型获得了合理的表现。
Jul, 2017
我们提出研究答案的蕴含关系,以识别更具信息量和更一般化的系统答案,从而更接近人类判断,无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数,实现对答案正确性的细致排序,其 AUC 比目前的方法更高。
May, 2024
这篇研究论文通过定量分析 token-level 等价度量的局限性,提出了一个不对称的答案等价度概念,结合 BERT matching 算法,其结果比传统的 F1 方法更为准确,可用于问题回答的实际应用中来找到最小准确预测集。
Feb, 2022
提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE,包含了约 340 万句子和 153 个质量标签,并通过机器学习模型进行了实验自动分类,显示具有引文、句法 / 语义或命题问题的句子更难以检测,该数据集在自动化的文章评分实验中表现出更好的泛化性能,并有望成为自然语言处理中其他任务的有价值的资源。
May, 2023
本研究介绍了 Event-QA 数据集,该数据集专注于回答关于事件的问题,针对现有 QA 系统和数据集关注于实体问题的情况,提供了一种新的回答事件问题的方法。
Apr, 2020