透过文本蕴含准确而细致地评估开放问题回答
本文提出了一种新的基于问题蕴含识别(Recognizing Question Entailment)的问答(Question Answering)方法,基于机器学习和深度学习算法,结合信息检索模型,在医疗领域实现了显著的问答准确率提升。
Jan, 2019
通过人工评估,我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果,且所有模型的真实性能均被显著低估,同时超过 50%的词汇匹配失败归因于意义相当的答案, 正则匹配排名与人类判断一致
May, 2023
本研究针对认知智能领域中的 Open Question Answering 任务进行评估,提出了 QA Evaluation 任务和相应的数据集,在考虑到自动评估方法的局限性的基础上,采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数,并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷,最终生成的数据集有望促进更有效的自动评估工具的发展。
May, 2023
通过生成包含多前提蕴含步骤(即知识事实到问题答案的中间推理结论)的蕴含树形式的解释,本研究提出第一个含有多步蕴含树的数据集 ENTAILMENTBANK,用于培训模型执行三项解释任务。结果表明,当输入包含相关句子时(例如,任务(a)的 35% 结果完美),强大的语言模型能部分地解决这些任务,并具有推广到其他领域的迹象。
Apr, 2021
通过建立一个包含多样化复杂问答任务的基准以及提供工具包,在开放领域环境中评估先进的预训练密集和稀疏检索模型,本研究旨在解决开放领域复杂问答中证据检索和推理的挑战。我们观察到晚期交互模型和词汇模型(如 BM25)表现较好,此外,我们还评估了 LLMs 的推理能力以及检索性能对其推理能力的影响,通过实验证实,要改进复杂问答的下游性能,还有很多待办之事。
Jun, 2024
通过考虑多种相关性信号,我们将多跳问题回答的证据检索任务划分为两个子任务:语义文本相似度和推理相似度检索。我们提出了两种集成模型 EAR 和 EARnest,分别处理每个子任务,然后考虑不同的相关性信号对句子进行重新排序。在 HotpotQA 上的实验证明,我们的模型不仅显著优于基于单一检索模型,而且比两个直观的集成基准模型更有效。
Nov, 2023
本文针对文本摘要模型中的事实一致性问题展开研究,对比了基于蕴含和基于问答的度量方法,并且提出了一种优化的基于问答的度量方法 QAFactEval,相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能,并且在最好的基于蕴含的方法之上表现更佳。此外,我们发现基于问答和基于蕴含的度量方法可以互补,结合起来可以提高摘要模型的性能
Dec, 2021
借助大型语言模型的上下文学习能力,我们提出了一个更好的 VQA 评估指标,该指标在多个 VQA 模型和基准测试中与人类判断更好地相关,希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。
Oct, 2023
开放领域问答(ODQA)作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据:(1)“先检索然后阅读” 范式从外部语料库中检索相关文档;(2)“先生成然后阅读” 范式使用大型语言模型(LLMs)生成相关文档。然而,两者都无法完全满足证据的多方面需求。因此,本文提出了 LLMQA,一种通用框架,将 ODQA 过程分为三个基本步骤:查询扩展、文档选择和答案生成,结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力,我们在框架中指导 LLMs 担任多个角色,作为生成器、重新排序器和评估器,集成它们在 ODQA 过程中的协作。此外,我们引入了一种新颖的提示优化算法,以改进角色扮演提示,引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试(NQ、WebQ 和 TriviaQA)上进行的大量实验结果表明,LLMQA 在答案准确性和证据质量方面达到了最佳表现,展示了其推进 ODQA 研究和应用的潜力。
Mar, 2024