UQA: 乌尔都问答语料库

May, 2024

UQA: Corpus for Urdu Question Answering

Samee Arif, Sualeha Farid, Awais Athar, Agha Ali Raza

TL;DR介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

Abstract

This paper introduces uqa, a novel dataset for question answering and text comprehension in urdu, a low-resource language with over 70 mil

uqa question answering text comprehension urdu eats

发现论文，激发创造

面向多语言问答的 SQuAD 数据集自动西班牙语翻译

本文提出 Translate Align Retrieve (TAR) 方法，通过将 Stanford Question Answering Dataset（SQuAD）v1.1 自动翻译成西班牙语，创建了大规模的西班牙语 QA training dataset。使用此数据集通过微调 Multilingual-BERT 模型训练了西班牙语 QA 系统，并在 MLQA 和 XQuAD 基准测试上进行了评估，结果表明该方法优于 Multilingual-BERT 基线，达到了新的最高 69.1 F1 分数。

Dec, 2019

MLQA：评估跨语言抽取式问答

该研究提出了一个名为 MLQA 的多语言提取式问答（QA）评估基准，旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例，并使用一种新颖的对齐上下文策略，基于 Wikipedia 文章构建，以此作为现有提取式 QA 数据集的跨语言扩展。

Oct, 2019

神经网络阿拉伯语问答

本文介绍了一个使用维基百科作为知识来源来解决阿拉伯语开放领域事实问题回答的方法，提出了阿拉伯阅读理解数据集（ARCD），并使用预训练的双向转换器 BERT 构建了 SOQAL 系统来回答问题，实验结果表明其有效性。

Jun, 2019

MahaSQuAD：马拉地语问答中的语言桥梁

通过使用强大的数据策划方法，我们翻译了英语问答数据集（SQuAD），解决了低资源语言中无高效问答数据集的问题。我们引入了 MahaSQuAD，这是第一个适用于印度马拉地语的完整 SQuAD 数据集，包含 118,516 个训练样本、11,873 个验证样本和 11,803 个测试样本。另外，我们还提供了一个手动验证的黄金测试集，包含 500 个例子。通过解决上下文和语言细微差异的挑战，我们确保了准确的翻译。此外，由于无法简单地将问答数据集直接转换为任何低资源语言，我们需要一种强大的方法将答案翻译映射到译文段落中的相应部分。因此，为了解决这一挑战，我们还提出了一种通用方法，可以将 SQuAD 翻译成任何低资源语言。因此，在问题回答系统领域，我们提供了一种可扩展的方法，弥合了低资源语言中存在的语言和文化差距。数据集和模型已公开共享于此 https URL。

Apr, 2024

为低资源语言构建高效高效的 OpenQA 系统

在这篇论文中，我们展示了能够为低资源语言开发有效且成本低廉的 OpenQA 系统的关键要素，其中包括利用机器翻译标注数据的弱监督和目标语言中相关的非结构化知识源。我们以土耳其语为挑战性案例研究，通过 ColBERT-QA 对 SQuAD-TR 进行了调整来构建我们的 OpenQA 系统。在使用两个跨足两年的维基百科转储版本的基础上，我们与基于 BM25 和 DPR 的 QA 读取器模型相比，在 EM 得分上获得了 9-34% 的性能提升以及 F1 得分上的 13-33% 的性能提升。我们希望我们的结果可以鼓励研究人员在其他低资源语言中构建 OpenQA 系统，并将所有的代码、模型和数据集公开提供。

Jan, 2024

基于越南维基百科文本知识源的开放领域问答

这篇论文提出了 XLMRQA 作为第一个使用监督 transformer-based reader 和基于 Wikipedia 的语料库作为知识来源的越南问题回答系统，优于基于深度神经网络模型的 DrQA 和 BERTserini，同时分析了问题类型对 QA 系统性能的影响。

Apr, 2022

一个针对阿拉伯语个性化学习助手的问答模型

本文描述了一种为个性化学习助手创建、优化和评估的问答模型，该模型使用针对阿拉伯语的 BERT transformer 进行了定制。该模型通过在巴勒斯坦课程中的科学教科书中进行优化，能够自动产生正确的科学教育问题的答案，并通过 BERT 技术的精确匹配和 F1 得分评估了模型的性能。结果显示，该模型能够理解并回答与巴勒斯坦科学教材相关的问题，展示了 BERT 问答模型在支持阿拉伯语学生的学习和理解方面的潜力。

Jun, 2024

ELQA: 英文语言问题及答案语料库

本文介绍一个包含 18 万多个有关英语语言的问题和答案的共同数据集，这个数据集可以用于语言学习者的自然语言处理应用，并介绍了以这个数据集为基础的三个任务：1）回答质量分类、2）语义搜索查找相似问题和 3）回答生成，并展示了当前基于 Transformer 模型的优缺点和基线方法。该数据集和脚本已经公开发布用于未来的研究。

May, 2022

MuCoT: 低资源语言中的多语言对比训练问答

本文提出一种用于低资源语言的提高问答技术的方法，即通过翻译和转写将问题回答样本扩充到目标语言，利用增广数据微调已经在英语中预训练的 mBERT 问答模型，并引入对翻译问题上下文特征对之间的对比损失来提高不同语言家族的翻译准确性。

Apr, 2022

利用多语言资源进行阿拉伯语问答

使用基于 BERT 的多语言模型并利用领域特定的大型阿拉伯语语料库，训练两个 BERT 模型实现确定问题答案起始位置和可行答案的排序。

May, 2022