一个带有多段答案的开放领域问答数据集
本文介绍了一个针对中文机器阅读理解的 Span-Extraction 数据集及其挑战集,共包含近 20,000 个人类专家在维基百科段落中标注的真实问题,并发布了 CMRC 2018 的评估工作坊,旨在进一步推进中文机器阅读理解研究。
Oct, 2018
通过引入多领域多语言问题回答基准 M2QA,并利用其探索经过微调的模型、最新最先进的 LLM 的跨语言跨领域性能,以及研究模块化方法对领域和语言进行适应,我们发现模型类别内在领域 - 语言组合上具有相当大的性能差异,并且在所有模型规模上源语言 - 目标语言 / 领域组合之间存在显著的性能下降。我们证明了 M2QA 并未得到完全解决,需要新的方法来有效地传递语言和领域特定信息。
Jul, 2024
该研究提出了一个名为 MLQA 的多语言提取式问答(QA)评估基准,旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例,并使用一种新颖的对齐上下文策略,基于 Wikipedia 文章构建,以此作为现有提取式 QA 数据集的跨语言扩展。
Oct, 2019
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集 “Multilingual Knowledge Questions and Answers”(MKQA),包括 10k 个问题 - 答案对,跨越 26 种语言(总计 260k 个问题 - 答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
提出了一种新的口语会话问答任务(SCQA),旨在使系统能够模拟复杂的对话流程,以便处理音频记录中的对话式问题,并探索从不同模态提供更多线索,通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示,并通过双向关注机制鼓励更好的音频和文本之间的对齐,以简化知识转移过程。通过 Spoken-CoQA 数据集,证明了跨模态信息融合的必要性,同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。
Apr, 2022
该研究提出了一个名为 SearchQA 的数据集,该数据集用于机器理解和问答,并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中,包含了 14 万个问题 - 答案对,每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试,研究显示了人类和机器表现之间的显著差距,表明所提出的数据集可作为问答的基准。
Apr, 2017
最近提出的长篇问答(QA)系统,在大型语言模型(LLMs)的支持下,展示了令人期待的能力。然而,为其生成的抽象回答归因和验证可能困难,并且自动评估其准确性仍然是一个持续的挑战。在这项工作中,我们介绍了一个新的 QA 任务,通过半抽取方式总结多个多样化的来源来回答多回答问题。具体来说,半抽取多源 QA(SEMQA)要求模型输出一个综合回答,同时混合了由给定的输入来源直接拷贝的事实引用片段和将这些片段连接成一个连贯段落的非事实自由文本连接器。这个设置弥合了受基于事实抽取的 QA 系统约束的输出与更流畅但更难以归因的完全抽象回答之间的差距。特别地,它利用了语言模型的先进语言生成能力的新模式,同时通过设计产生易于验证、解释和评估的细致内联归因。为了研究这个任务,我们创建了第一个这样类型的数据集 QuoteSum,其中包含人工编写的对自然问题和生成问题的半抽取回答,并定义了基于文本的评估指标。在不同设置下尝试了几个 LLM 后,我们发现这个任务出人意料地具有挑战性,这展示了 QuoteSum 用于开发和研究这种整合能力的重要性。
Nov, 2023
通过语言模型的构建过程,使用 LM 生成问题 / 答案、改进答案和验证 QA,然后减少人工验证的工作量,我们提出了 Multilingual CommonsenseQA(mCSQA),这是一个用于评估多语言 LM 的跨语言语言传递能力的基准数据集。实验结果表明,多语言 LM 在处理容易解决的问题时具有较高的语言传递能力,但处理需要深入知识或常识的问题时传递能力较低。这凸显了对语言特定数据集进行评估和训练的必要性,最后,我们的方法证明了多语言 LM 能够创建包含语言特定知识的 QA,与手动创建相比,显著降低了数据集创建成本。
Jun, 2024