KenSwQuAD-- 用于斯瓦希里低资源语言的问答数据集
Kencorpus, the first corpus of its kind for low-resource Indigenous African languages, endeavors to fill the gap in the development of Natural Language Processing and Machine Learning datasets for Swahili, Dholuo, and Luhya languages, enabling text and speech data-driven solutions in applications like machine translation, question-answering, and transcription.
Aug, 2022
通过使用强大的数据策划方法,我们翻译了英语问答数据集(SQuAD),解决了低资源语言中无高效问答数据集的问题。我们引入了 MahaSQuAD,这是第一个适用于印度马拉地语的完整 SQuAD 数据集,包含 118,516 个训练样本、11,873 个验证样本和 11,803 个测试样本。另外,我们还提供了一个手动验证的黄金测试集,包含 500 个例子。通过解决上下文和语言细微差异的挑战,我们确保了准确的翻译。此外,由于无法简单地将问答数据集直接转换为任何低资源语言,我们需要一种强大的方法将答案翻译映射到译文段落中的相应部分。因此,为了解决这一挑战,我们还提出了一种通用方法,可以将 SQuAD 翻译成任何低资源语言。因此,在问题回答系统领域,我们提供了一种可扩展的方法,弥合了低资源语言中存在的语言和文化差距。数据集和模型已公开共享于此 https URL。
Apr, 2024
本文提出了 JaQuAD 数据集,它是一种由人类注释的日语问答数据集,用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调,测试数据集上的 F1 得分为 78.92%,EM 为 63.38%。
Feb, 2022
使用机器翻译将现有数据集转化为 Tigrinya 数据集,构建了 TIGQA 专家注释的教育数据集,通过综合分析展示了 TIGQA 数据集需要单句和多句推理能力,使用最先进的 MRC 方法进行了实验,并与人类表现进行对比,结果强调了对 TIGQA 的进一步研究增强的潜力。
Apr, 2024
为了促进阿姆哈拉语 QA (AmQA) 研究,我们提供了第一个阿姆哈拉语 QA (AmQA) 资料集。我们通过众包收集了 2628 个问题 - 答案对,并运行了一个基于 XLMR Large 的基线模型来激发开放域 QA 研究兴趣。最佳性能基线在阅读器 - 检索 QA 和阅读理解设置中分别达到了 69.58 和 71.74 的 F-score。
Mar, 2023
EuSQuAD 是第一个将 SQuAD2.0 自动翻译和对齐成巴斯克语的倡议,产生了超过 142k 个问答示例,通过广泛的定性分析和 QA 实验以及新的人工标注数据集的评估,证明了 EuSQuAD 的价值。
Apr, 2024
该研究介绍了韩语问答数据集(KorQuAD),这是一个用于机器阅读理解的大型韩语数据集,有助于自动回答语音机器人和自动化客户支持系统的开发。
Sep, 2019
我们介绍了 KazQAD 这个哈萨克斯坦的开放域问题回答数据集,可用于阅读理解和完整的 ODQA 设置,以及信息检索实验。该数据集包含近 6,000 个独特问题、提取的简短答案和将近 12,000 个段落级相关性判断。我们使用机器翻译、维基百科搜索和内部手动注释的组合来确保注释效率和数据质量。问题来自两个来源:从自然问题(NQ)数据集翻译而来的项目(仅用于训练)和哈萨克统一国家考试(UNT)的原始考题(用于开发和测试)。相关的文本语料库包含来自哈萨克斯坦维基百科的超过 800,000 个段落。作为补充数据集,我们发布了大约 61,000 个问题 - 段落 - 答案三元组,这些三元组已经被机器翻译成了哈萨克语。我们开发了基准检索器和阅读器,在检索(NDCG@10 = 0.389 MRR = 0.382)、阅读理解(EM = 38.5 F1 = 54.2)和完整的 ODQA(EM = 17.8 F1 = 28.7)设置下取得了合理的分数。然而,与英文 QA 集合的最新结果相比,这些结果要低得多,我们认为仍然有很大的改进空间。我们还表明目前的 OpenAI 的 ChatGPTv3.5 无法以可接受的质量回答 KazQAD 的测试问题(闭卷设置)。该数据集在创作公共许可证(CC BY-SA)下免费提供,链接为 https URL。
Apr, 2024
本文介绍了一个非英语机器阅读问答研究的主要挑战:缺乏注释数据集。我们随后提出一个德语 QA 数据集(GermanQuAD),总结经验教训,并评估 QA 问答对重组的效果,以加速注释过程。通过 GermanQuAD 数据训练,提出的 QA 模型明显优于多语言模型。最后,将数据集适应于 DPR 语言,训练了第一款非英语 DPR 模型。
Apr, 2021
本文提出 Translate Align Retrieve (TAR) 方法,通过将 Stanford Question Answering Dataset(SQuAD)v1.1 自动翻译成西班牙语,创建了大规模的西班牙语 QA training dataset。使用此数据集通过微调 Multilingual-BERT 模型训练了西班牙语 QA 系统,并在 MLQA 和 XQuAD 基准测试上进行了评估,结果表明该方法优于 Multilingual-BERT 基线,达到了新的最高 69.1 F1 分数。
Dec, 2019