Nov, 2023

SEMQA: 半抽取式多源问答

TL;DR最近提出的长篇问答(QA)系统,在大型语言模型(LLMs)的支持下,展示了令人期待的能力。然而,为其生成的抽象回答归因和验证可能困难,并且自动评估其准确性仍然是一个持续的挑战。在这项工作中,我们介绍了一个新的QA任务,通过半抽取方式总结多个多样化的来源来回答多回答问题。具体来说,半抽取多源QA(SEMQA)要求模型输出一个综合回答,同时混合了由给定的输入来源直接拷贝的事实引用片段和将这些片段连接成一个连贯段落的非事实自由文本连接器。这个设置弥合了受基于事实抽取的QA系统约束的输出与更流畅但更难以归因的完全抽象回答之间的差距。特别地,它利用了语言模型的先进语言生成能力的新模式,同时通过设计产生易于验证、解释和评估的细致内联归因。为了研究这个任务,我们创建了第一个这样类型的数据集QuoteSum,其中包含人工编写的对自然问题和生成问题的半抽取回答,并定义了基于文本的评估指标。在不同设置下尝试了几个LLM后,我们发现这个任务出人意料地具有挑战性,这展示了QuoteSum用于开发和研究这种整合能力的重要性。