ASQA:事实问题遇见长篇回答
通过利用来自维基百科的明确问题数据库,我们提出了一个新的用于回答含糊问题的最新方法,在含糊问题的多个答案的总结中,我们的方法在回收率指标上提高了 15%(相对改进),在评估从预测输出中消除模糊问题的指标上提高了 10%。从生成的问题数据库检索还可以在多样的篇章检索中取得巨大的改进。
Aug, 2023
对长篇答案进行有针对性的评估研究,强调评估多维度因素,发现自动文本生成的评价指标不能预测人类喜好,建议未来的评估中,应该注重准确性、完整性和客观性等多个方面。
May, 2023
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
最近提出的长篇问答(QA)系统,在大型语言模型(LLMs)的支持下,展示了令人期待的能力。然而,为其生成的抽象回答归因和验证可能困难,并且自动评估其准确性仍然是一个持续的挑战。在这项工作中,我们介绍了一个新的 QA 任务,通过半抽取方式总结多个多样化的来源来回答多回答问题。具体来说,半抽取多源 QA(SEMQA)要求模型输出一个综合回答,同时混合了由给定的输入来源直接拷贝的事实引用片段和将这些片段连接成一个连贯段落的非事实自由文本连接器。这个设置弥合了受基于事实抽取的 QA 系统约束的输出与更流畅但更难以归因的完全抽象回答之间的差距。特别地,它利用了语言模型的先进语言生成能力的新模式,同时通过设计产生易于验证、解释和评估的细致内联归因。为了研究这个任务,我们创建了第一个这样类型的数据集 QuoteSum,其中包含人工编写的对自然问题和生成问题的半抽取回答,并定义了基于文本的评估指标。在不同设置下尝试了几个 LLM 后,我们发现这个任务出人意料地具有挑战性,这展示了 QuoteSum 用于开发和研究这种整合能力的重要性。
Nov, 2023
本研究提出一种算法,利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式,自动生成自然问题(NQ)数据集中的问题,同时使用神经分类器检测并去除不合法的问题,从而生成高质量的数据集,提高了 QA 表现,该算法在低资源环境下使用,扩展了 QA 系统的规模,同时保持了训练数据的质量。
Oct, 2022
提出了基于 Alternative Answer Sets (AAS) 的语义度量方法,通过修改现有的 VQA 算法实现多个有效答案,提高了视觉理解和组合问题回答 (GQA) 数据集的表现。
Mar, 2021
本文针对文本摘要模型中的事实一致性问题展开研究,对比了基于蕴含和基于问答的度量方法,并且提出了一种优化的基于问答的度量方法 QAFactEval,相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能,并且在最好的基于蕴含的方法之上表现更佳。此外,我们发现基于问答和基于蕴含的度量方法可以互补,结合起来可以提高摘要模型的性能
Dec, 2021
提出了一种具有迭代规划、检索和生成过程的长篇问答(Long-form question answering,LFQA)模型,该模型通过迭代过程直到生成给定问题的完整答案,解决了既有模型在处理复杂问题和知识聚合方面的限制,并在各种文本和实际指标上优于现有模型。
Nov, 2023
本篇论文介绍了 FeTaQA 数据集,该数据集包含 10K 个基于维基百科的 {表格,问题,自由形式答案,支持表格单元格} 对,可以用于进行表格问答系统的复杂推理和信息集成;并提出了一个基于语义解析的 QA 系统和一个基于大型预训练文本生成模型的端到端方法来处理该任务。
Apr, 2021