SQUARE: 使用多个正面和负面参考答案的自动问答评估
提出了利用基于 Transformer 模型度量方法对自然语言生成及问答系统进行语义相似度评估的框架,并使用 US-American public figures 的同指名字对数据集进行训练,取得较高的语义相似度度量结果。
Jun, 2022
提出一种基于问答的评估度量标准(QAEval)来评估摘要的内容质量,通过分析 QAEval,证明 QA-based methods 相较于传统的基于文本内部匹配的度量标准(如 ROUGE)更加准确。
Oct, 2020
本篇论文介绍了一个用于评估大规模句子级别答案检索模型的基准 Retrieval Question-Answering(ReQA),并使用神经编码模型和传统信息检索技术建立了基线。我们提供我们的评估代码以鼓励更多关于这一具有挑战性的任务的研究。
Jul, 2019
最近提出的长篇问答(QA)系统,在大型语言模型(LLMs)的支持下,展示了令人期待的能力。然而,为其生成的抽象回答归因和验证可能困难,并且自动评估其准确性仍然是一个持续的挑战。在这项工作中,我们介绍了一个新的 QA 任务,通过半抽取方式总结多个多样化的来源来回答多回答问题。具体来说,半抽取多源 QA(SEMQA)要求模型输出一个综合回答,同时混合了由给定的输入来源直接拷贝的事实引用片段和将这些片段连接成一个连贯段落的非事实自由文本连接器。这个设置弥合了受基于事实抽取的 QA 系统约束的输出与更流畅但更难以归因的完全抽象回答之间的差距。特别地,它利用了语言模型的先进语言生成能力的新模式,同时通过设计产生易于验证、解释和评估的细致内联归因。为了研究这个任务,我们创建了第一个这样类型的数据集 QuoteSum,其中包含人工编写的对自然问题和生成问题的半抽取回答,并定义了基于文本的评估指标。在不同设置下尝试了几个 LLM 后,我们发现这个任务出人意料地具有挑战性,这展示了 QuoteSum 用于开发和研究这种整合能力的重要性。
Nov, 2023
本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准(SAS),与七种现有度量标准进行比较,并通过人类判断的语义相似性评估数据集检验其性能。结果表明,基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。
Aug, 2021
我们介绍了一个语义实体相似度数据集 WES,其中包含 11M 个例子,专注于领域,旨在评估 QA:这些例子是实体和短语,分组为语义聚类以模拟多个 ground-truth 标签,用于预测人类正确性判断的基本交叉编码器度量优于四个经典度量。
Feb, 2022
该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成(QG)时发现,使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法,通过利用大型语言模型来评估问题的自然性、可回答性和复杂性,该度量方法不受单个参考问题的句法或语义限制,也不需要多样化的参考文献集合。实验证明,该度量方法能够准确区分高质量问题和有缺陷的问题,并与人类判断达到最先进的一致性。
Mar, 2024
本研究针对认知智能领域中的 Open Question Answering 任务进行评估,提出了 QA Evaluation 任务和相应的数据集,在考虑到自动评估方法的局限性的基础上,采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数,并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷,最终生成的数据集有望促进更有效的自动评估工具的发展。
May, 2023
本研究探讨了基于 Transformer 的 QA 模型中问题、答案和上下文的隐藏表示,并通过观察回答表示中的一致性模式来自动评估预测出的答案跨度是否正确,其方法不需要任何标记数据且优于强启发式基线,在两个数据集和七个领域上均能够达到较高准确率。
Oct, 2020
本文研究基于问答的摘要评估方法,要求自动决定 QA 模型的预测是否正确,即答案验证。通过比较词汇重叠和两种更复杂的文本比较方法,BERTScore 和 LERC,我们发现在某些场景下 LERC 的效果优于其他方法,但在其他场景下表现与词汇重叠相当。然而,我们的实验表明,改进的验证性能不一定能够转化为整体 QA-based 评估质量,在某些情况下,使用较差的验证方法(或根本不使用)具有与使用最佳验证方法相当的性能,这是由于数据集的特性所致。
Apr, 2022