多项选择数据集能否用于抽取式问答?
该研究提出了一个名为MLQA的多语言提取式问答(QA)评估基准,旨在推动跨语言QA研究。 MLQA包含7种语言的QA实例,并使用一种新颖的对齐上下文策略,基于Wikipedia文章构建,以此作为现有提取式QA数据集的跨语言扩展。
Oct, 2019
本文提出Translate Align Retrieve (TAR)方法,通过将Stanford Question Answering Dataset(SQuAD)v1.1自动翻译成西班牙语,创建了大规模的西班牙语QA training dataset。使用此数据集通过微调Multilingual-BERT模型训练了西班牙语QA系统,并在MLQA和XQuAD基准测试上进行了评估,结果表明该方法优于Multilingual-BERT基线,达到了新的最高69.1 F1分数。
Dec, 2019
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
本文介绍了一个非英语机器阅读问答研究的主要挑战:缺乏注释数据集。我们随后提出一个德语QA数据集(GermanQuAD),总结经验教训,并评估QA问答对重组的效果,以加速注释过程。通过GermanQuAD数据训练,提出的QA模型明显优于多语言模型。最后,将数据集适应于DPR语言,训练了第一款非英语DPR模型。
Apr, 2021
本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中,并进行深入分析和提出未来数据集开发的建议,以提高多语种问答系统的覆盖面。
May, 2021
本文回顾了近年来深度学习模型在自然语言处理中的研究,并着重探讨了问题回答和阅读理解方面逾80种新数据集。除此之外,对现有各种格式和领域的资源进行了总结,并提出了新的技能分类法以及对过度专注于英语的影响。最后旨在为从业者和研究人员提供指引。
Jul, 2021
本篇研究旨在建立自然语言处理模型,通过针对印度语的公共数据集进行微调以及训练,使得机器的提取问答任务的表现比已有模型更为优秀。基于 RoBERTa 模型构建的两种模型表现最好,证实了对于特定语言任务而言,训练数据的特异性对模型的表现影响更大。
Sep, 2022
本文介绍并公开发布了PolQA,这是第一个用于OpenQA的波兰语数据集。该数据集包含7,000个问题,87,525个手动标注的证据段落和超过7,097,322个候选段落。该资源允许我们评估不同注释选择对QA系统性能的影响,并提出一种有效的注释策略,使召回率提高了10.55 p.p. 并同时将注释成本降低了82%。
Dec, 2022
最近提出的长篇问答(QA)系统,在大型语言模型(LLMs)的支持下,展示了令人期待的能力。然而,为其生成的抽象回答归因和验证可能困难,并且自动评估其准确性仍然是一个持续的挑战。在这项工作中,我们介绍了一个新的QA任务,通过半抽取方式总结多个多样化的来源来回答多回答问题。具体来说,半抽取多源QA(SEMQA)要求模型输出一个综合回答,同时混合了由给定的输入来源直接拷贝的事实引用片段和将这些片段连接成一个连贯段落的非事实自由文本连接器。这个设置弥合了受基于事实抽取的QA系统约束的输出与更流畅但更难以归因的完全抽象回答之间的差距。特别地,它利用了语言模型的先进语言生成能力的新模式,同时通过设计产生易于验证、解释和评估的细致内联归因。为了研究这个任务,我们创建了第一个这样类型的数据集QuoteSum,其中包含人工编写的对自然问题和生成问题的半抽取回答,并定义了基于文本的评估指标。在不同设置下尝试了几个LLM后,我们发现这个任务出人意料地具有挑战性,这展示了QuoteSum用于开发和研究这种整合能力的重要性。
Nov, 2023
提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin,该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落,使用英语数据作为上下文生成合成的多项选择问题-回答对,并经过自动翻译和质量验证。人类评估显示,生成的英文数据在问题类型和主题方面保持了 98% 的质量和多样性,翻译验证流程能够过滤掉约 70% 质量差的数据。使用数据集对最先进的大模型进行评估表明,它们无法达到人类的准确性,部分模型的表现接近随机机会。这表明生成的数据集非平凡,并可用于评估低资源语言中的推理能力。
Jun, 2024