突破语言障碍:一个用于印地语和马拉地语的问答数据集
通过使用强大的数据策划方法,我们翻译了英语问答数据集(SQuAD),解决了低资源语言中无高效问答数据集的问题。我们引入了 MahaSQuAD,这是第一个适用于印度马拉地语的完整 SQuAD 数据集,包含 118,516 个训练样本、11,873 个验证样本和 11,803 个测试样本。另外,我们还提供了一个手动验证的黄金测试集,包含 500 个例子。通过解决上下文和语言细微差异的挑战,我们确保了准确的翻译。此外,由于无法简单地将问答数据集直接转换为任何低资源语言,我们需要一种强大的方法将答案翻译映射到译文段落中的相应部分。因此,为了解决这一挑战,我们还提出了一种通用方法,可以将 SQuAD 翻译成任何低资源语言。因此,在问题回答系统领域,我们提供了一种可扩展的方法,弥合了低资源语言中存在的语言和文化差距。数据集和模型已公开共享于此 https URL。
Apr, 2024
使用不同的 Transformer 模型,我们创建了一个基于阅读理解的马拉提语问答系统,并在马拉提语阅读理解数据集上通过对 MuRIL 多语言模型进行微调,获得了最佳准确性,EM 得分为 0.64,F1 得分为 0.74。
Sep, 2023
为了在印度语中评估问答(QA)的当前评估基准,常常依赖于现有英语数据集的机器翻译。这种方法存在机器翻译中固有的偏见和不准确性,导致可能不能反映印度语 EQA 模型真实能力的数据集。本文提出了一个专门设计用于评估印度语 EQA 模型的新基准,并讨论了同样用于任何任务的方法。该方法利用大型语言模型(LLMs)在提取的环境中生成高质量的数据集,确保其对目标语言的相关性。我们相信这个新资源将通过提供更准确可靠的评估工具来促进印度语 NLP 研究的进展。
Apr, 2024
本文提出 Translate Align Retrieve (TAR) 方法,通过将 Stanford Question Answering Dataset(SQuAD)v1.1 自动翻译成西班牙语,创建了大规模的西班牙语 QA training dataset。使用此数据集通过微调 Multilingual-BERT 模型训练了西班牙语 QA 系统,并在 MLQA 和 XQuAD 基准测试上进行了评估,结果表明该方法优于 Multilingual-BERT 基线,达到了新的最高 69.1 F1 分数。
Dec, 2019
介绍了 UQA,一个用于乌尔都语(Urdu)问答和文本理解的新数据集,通过一种称为 EATS 的技术,将斯坦福问答数据集(SQuAD2.0)的答案段落的翻译上下文中的答案范围进行保留,在两个候选项(Google Translator 和 Seamless M4T)中选择和评估最佳翻译模型,并对 UQA 上的几个最先进的多语言问答模型进行基准测试,其中包括 mBERT,XLM-RoBERTa 和 mT5,报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果,证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。
May, 2024
L3Cube-MahaNLP 旨在为印度第三流行的马拉地语构建 NLP 资源和库。该论文提出了针对情感分析、实体识别和仇恨言论检测的数据集和变形器模型,并发布了一个单语马拉地语语料库。作者的目标是为马拉地语准备有用的资源,并提供 MahaCorpus、MahaSent、MahaNER 和 MahaHate 数据集及其相应的 MahaBERT 模型。
May, 2022
通过将高质量问题的翻译引入到最受欢迎的 KGQA 基准测试之一 QALD-9 中,从 DBpedia 到 Wikidata 的迁移和添加 8 种语言的支持来扩展 QALD-9 基准测试,从而增强了数据集的可用性和相关性,该数据集称为 QALD-9-Plus,将提供在线支持。
Jan, 2022
我们介绍了 L3Cube-MahaNews,这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库,包含超过 1.05L 条记录,分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上,单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型,并可在此 https URL 中公开获取。
Apr, 2024
该研究介绍了 L3Cube-MahaCorpus,这是一个从不同互联网来源抓取的马拉提语单语数据集,它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型,如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等,并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。
Feb, 2022
该研究提出了一个名为 MLQA 的多语言提取式问答(QA)评估基准,旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例,并使用一种新颖的对齐上下文策略,基于 Wikipedia 文章构建,以此作为现有提取式 QA 数据集的跨语言扩展。
Oct, 2019