TIGQA：提格里尼亚语的专家标注问答数据集

Apr, 2024

TIGQA：提格里尼亚语的专家标注问答数据集

TIGQA:An Expert Annotated Question Answering Dataset in Tigrinya

Hailay Teklehaymanot, Dren Fazlija, Niloy Ganguly, Gourab K. Patro, Wolfgang Nejdl

TL;DR使用机器翻译将现有数据集转化为 Tigrinya 数据集，构建了 TIGQA 专家注释的教育数据集，通过综合分析展示了 TIGQA 数据集需要单句和多句推理能力，使用最先进的 MRC 方法进行了实验，并与人类表现进行对比，结果强调了对 TIGQA 的进一步研究增强的潜力。

Abstract

The absence of explicitly tailored, accessible annotated datasets for educational purposes presents a notable obstacle for NLP tasks in languages with limited resources.This study initially explores the feasibility of using →

annotated datasets machine translation tigrinya dataset educational dataset mrc methods

发现论文，激发创造

AmQA：阿姆哈拉问答数据集

为了促进阿姆哈拉语 QA (AmQA) 研究，我们提供了第一个阿姆哈拉语 QA (AmQA) 资料集。我们通过众包收集了 2628 个问题 - 答案对，并运行了一个基于 XLMR Large 的基线模型来激发开放域 QA 研究兴趣。最佳性能基线在阅读器 - 检索 QA 和阅读理解设置中分别达到了 69.58 和 71.74 的 F-score。

Mar, 2023

TANQ: 一个开放领域的表格问答数据集

TANQ 是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集，我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测，最好的基准模型 GPT4 的综合 F1 得分为 29.1，相较于人类表现差了 19.7 个百分点，我们分析了在这个任务中所需的不同技能以及模型生成答案的常见失败，指出 TANQ 是一个具有许多挑战的复杂任务。

May, 2024

面向多语言问答的 SQuAD 数据集自动西班牙语翻译

本文提出 Translate Align Retrieve (TAR) 方法，通过将 Stanford Question Answering Dataset（SQuAD）v1.1 自动翻译成西班牙语，创建了大规模的西班牙语 QA training dataset。使用此数据集通过微调 Multilingual-BERT 模型训练了西班牙语 QA 系统，并在 MLQA 和 XQuAD 基准测试上进行了评估，结果表明该方法优于 Multilingual-BERT 基线，达到了新的最高 69.1 F1 分数。

Dec, 2019

UQA: 乌尔都问答语料库

介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

May, 2024

MahaSQuAD：马拉地语问答中的语言桥梁

通过使用强大的数据策划方法，我们翻译了英语问答数据集（SQuAD），解决了低资源语言中无高效问答数据集的问题。我们引入了 MahaSQuAD，这是第一个适用于印度马拉地语的完整 SQuAD 数据集，包含 118,516 个训练样本、11,873 个验证样本和 11,803 个测试样本。另外，我们还提供了一个手动验证的黄金测试集，包含 500 个例子。通过解决上下文和语言细微差异的挑战，我们确保了准确的翻译。此外，由于无法简单地将问答数据集直接转换为任何低资源语言，我们需要一种强大的方法将答案翻译映射到译文段落中的相应部分。因此，为了解决这一挑战，我们还提出了一种通用方法，可以将 SQuAD 翻译成任何低资源语言。因此，在问题回答系统领域，我们提供了一种可扩展的方法，弥合了低资源语言中存在的语言和文化差距。数据集和模型已公开共享于此 https URL。

Apr, 2024

GermanQuAD 和 GermanDPR: 提高非英语问答和文章检索的能力

本文介绍了一个非英语机器阅读问答研究的主要挑战：缺乏注释数据集。我们随后提出一个德语 QA 数据集（GermanQuAD），总结经验教训，并评估 QA 问答对重组的效果，以加速注释过程。通过 GermanQuAD 数据训练，提出的 QA 模型明显优于多语言模型。最后，将数据集适应于 DPR 语言，训练了第一款非英语 DPR 模型。

Apr, 2021

MLQA：评估跨语言抽取式问答

该研究提出了一个名为 MLQA 的多语言提取式问答（QA）评估基准，旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例，并使用一种新颖的对齐上下文策略，基于 Wikipedia 文章构建，以此作为现有提取式 QA 数据集的跨语言扩展。

Oct, 2019

KenSwQuAD-- 用于斯瓦希里低资源语言的问答数据集

本研究开发了 Kencorpus Swahili Question Answering Dataset（KenSwQuAD）, 这一包含 7,526 个 QA 组合的数据集（每一个包含至少 5 个 QA 组合的文本都被标注了 QA 组合），证明其对机器理解自然语言很有用。

May, 2022

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

走向更加公平的问答系统：需要多少更多的数据？

本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中，并进行深入分析和提出未来数据集开发的建议，以提高多语种问答系统的覆盖面。

May, 2021