May, 2024

UQA: 乌尔都问答语料库

TL;DR介绍了 UQA,一个用于乌尔都语(Urdu)问答和文本理解的新数据集,通过一种称为 EATS 的技术,将斯坦福问答数据集(SQuAD2.0)的答案段落的翻译上下文中的答案范围进行保留,在两个候选项(Google Translator 和 Seamless M4T)中选择和评估最佳翻译模型,并对 UQA 上的几个最先进的多语言问答模型进行基准测试,其中包括 mBERT,XLM-RoBERTa 和 mT5,报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果,证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。