Pirá:一个关于海洋的葡萄牙语 - 英语双语问答数据集
Pir'a 是一个以海洋、巴西海岸和气候变化为重点的阅读理解数据集,从科学摘要和报告集合构建而成。本文定义了六个基准,对 Pir'a 数据集进行了测试,涵盖封闭生成问题回答、机器阅读理解、信息检索、开放性问题回答、答案触发和多项选择问题回答。结果为对 Pir'a 数据集的挑战提供了几个参考点。
Sep, 2023
通过引入 PCoQA 数据集,本研究旨在为会话式问答研究提供第一个波斯语会话式问答数据集,包含多达 9,026 个背景驱动的问题,涉及提问者、回答者和维基百科文档。该数据集对以往问答数据集提供了新的挑战,包括更多开放性非事实性答案、较长答案和更少的词汇重复。本文还介绍了多种基准模型的性能,包括基线模型和预训练模型,并使用预训练模型提升了性能。有关数据集和基准模型可在我们的 Github 页面上获取。
Dec, 2023
本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中,并进行深入分析和提出未来数据集开发的建议,以提高多语种问答系统的覆盖面。
May, 2021
使用机器翻译将现有数据集转化为 Tigrinya 数据集,构建了 TIGQA 专家注释的教育数据集,通过综合分析展示了 TIGQA 数据集需要单句和多句推理能力,使用最先进的 MRC 方法进行了实验,并与人类表现进行对比,结果强调了对 TIGQA 的进一步研究增强的潜力。
Apr, 2024
通过使用强大的数据策划方法,我们翻译了英语问答数据集(SQuAD),解决了低资源语言中无高效问答数据集的问题。我们引入了 MahaSQuAD,这是第一个适用于印度马拉地语的完整 SQuAD 数据集,包含 118,516 个训练样本、11,873 个验证样本和 11,803 个测试样本。另外,我们还提供了一个手动验证的黄金测试集,包含 500 个例子。通过解决上下文和语言细微差异的挑战,我们确保了准确的翻译。此外,由于无法简单地将问答数据集直接转换为任何低资源语言,我们需要一种强大的方法将答案翻译映射到译文段落中的相应部分。因此,为了解决这一挑战,我们还提出了一种通用方法,可以将 SQuAD 翻译成任何低资源语言。因此,在问题回答系统领域,我们提供了一种可扩展的方法,弥合了低资源语言中存在的语言和文化差距。数据集和模型已公开共享于此 https URL。
Apr, 2024
本文介绍了 ParaQA 数据集,它是一个用于基于知识图谱单轮会话的多重释义响应问答(QA)数据集。ParaQA 数据集包含 5000 个问题 - 答案对,每个问题有 2 至 8 个不同的释义响应。我们提供了基准模型,并通过 BLEU 和 METEOR 等常用度量表说明了具有多个释义响应的优势。 ParaQA 数据集可在一个持续的 URI 上公开获得,以便在研究社区中广泛使用和适应。
Mar, 2021
为解决下游任务比如问答系统中的非英语数据匮乏问题,我们发起了一个众包项目收集并发布了一个法语问答数据集,提供了我们的数据注释工具以及初步的基准结果。
Jul, 2020
本文提出 Translate Align Retrieve (TAR) 方法,通过将 Stanford Question Answering Dataset(SQuAD)v1.1 自动翻译成西班牙语,创建了大规模的西班牙语 QA training dataset。使用此数据集通过微调 Multilingual-BERT 模型训练了西班牙语 QA 系统,并在 MLQA 和 XQuAD 基准测试上进行了评估,结果表明该方法优于 Multilingual-BERT 基线,达到了新的最高 69.1 F1 分数。
Dec, 2019
利用数据增强技术生成合成数据以解决葡萄牙金融领域中领域特定数据稀缺的问题,并使用不同语义相似性的技术对从巴西中央银行 FAQ 获取的数据集进行增强,通过有监督和无监督任务评估增强数据对低语义相似性和高语义相似性情况的影响。此外,生成的数据集将在 Hugging Face 数据集平台上公开传播,从而提高可访问性并促进自然语言处理研究社区的更广泛参与。
Nov, 2023
本研究提出了 BiPaR—— 一种双语平行小说式机器阅读理解 (MRC) 数据集,它是为支持多语言和跨语言阅读理解而开发的。BiPaR 具有好的问题前缀、答案类型多样性和问题与段落之间的关系多样性,需要核心指代消解、多句子推理和隐含因果关系等阅读理解技能。实验证明,强大的 BERT 模型在这个数据集上与人类之间的差距非常大,BiPaR 为小说的单语、多语和跨语言 MRC 提供了一个具有挑战性的试验平台。
Oct, 2019