RuBQ: 一个用于维基数据问答的俄语数据集

May, 2020

RuBQ: 一个用于维基数据问答的俄语数据集

RuBQ: A Russian Dataset for Question Answering over Wikidata

Vladislav Korablinov, Pavel Braslavski

TL;DR文章介绍了 RuBQ，第一个俄语知识库问答（KBQA）数据集，它包括 1,500 个俄语问题、它们的英语机器翻译、SPARQL 查询到维基数据、参考答案和一些包含俄语标签实体的维基数据样本。数据集的创建经历了自动过滤、众包实体链接、自动生成 SPARQL 查询以及后续的审核。

Abstract

The paper presents rubq, the first Russian knowledge base question answering (kbqa) dataset. The high-quality dataset consists of 1,500 Russian questions of varying complexity, their English machine translations,

rubq russian knowledge base question answering dataset kbqa sparql queries entity linking

发现论文，激发创造

WikiOmnia: 面向全俄罗斯维基百科的生成式问答语料库

该研究提出了 WikiOmnia 数据集，该数据集是一个公开的 QA 对和相应俄语维基百科文章摘要部分集合。该数据集通过自动化生成流程组成，可在不同领域（例如新闻文本、小说和社交媒体）中创建 SQuAD 格式的 QA，其结果数据集包括原始数据和经自动验证的清理数据。

Apr, 2022

面向问答系统的俄语 Jeopardy! 数据集

本文介绍了来自俄罗斯官方问答数据库 Chgk 的 Jeopardy！- 类俄语问答数据集，包括 379,284 个问题，观察其语言特征和相关的 QA 任务，并总结了基于该数据集的 QA 竞赛的前景。

Dec, 2021

QALD-9-plus: 面向 DBpedia 和 Wikidata 的多语言问题回答数据集（由本地说话人翻译）

通过将高质量问题的翻译引入到最受欢迎的 KGQA 基准测试之一 QALD-9 中，从 DBpedia 到 Wikidata 的迁移和添加 8 种语言的支持来扩展 QALD-9 基准测试，从而增强了数据集的可用性和相关性，该数据集称为 QALD-9-Plus，将提供在线支持。

Jan, 2022

走向语义网上的问答系统

本文提出了一种基于 SPARQL 查询的多语言语义 Web 知识库问答（QA）方法，能够查询多个知识库，可轻松移植到其他知识库和语言。通过对五个不同的知识库和五种语言的评估，证明了该方法的影响。

Mar, 2018

KazQAD: 哈萨克语开放域问答数据集

我们介绍了 KazQAD 这个哈萨克斯坦的开放域问题回答数据集，可用于阅读理解和完整的 ODQA 设置，以及信息检索实验。该数据集包含近 6,000 个独特问题、提取的简短答案和将近 12,000 个段落级相关性判断。我们使用机器翻译、维基百科搜索和内部手动注释的组合来确保注释效率和数据质量。问题来自两个来源：从自然问题（NQ）数据集翻译而来的项目（仅用于训练）和哈萨克统一国家考试（UNT）的原始考题（用于开发和测试）。相关的文本语料库包含来自哈萨克斯坦维基百科的超过 800,000 个段落。作为补充数据集，我们发布了大约 61,000 个问题 - 段落 - 答案三元组，这些三元组已经被机器翻译成了哈萨克语。我们开发了基准检索器和阅读器，在检索（NDCG@10 = 0.389 MRR = 0.382）、阅读理解（EM = 38.5 F1 = 54.2）和完整的 ODQA（EM = 17.8 F1 = 28.7）设置下取得了合理的分数。然而，与英文 QA 集合的最新结果相比，这些结果要低得多，我们认为仍然有很大的改进空间。我们还表明目前的 OpenAI 的 ChatGPTv3.5 无法以可接受的质量回答 KazQAD 的测试问题（闭卷设置）。该数据集在创作公共许可证（CC BY-SA）下免费提供，链接为 https URL。

Apr, 2024

主题分类的单 / 跨语言知识迁移

通过研究 RuQTopics 数据集中的知识转移情况，本文证明了该数据集非常适合用于实际对话任务，在多语言 BERT 上进行训练可以带来更好的结果。

Jun, 2023

UQA: 乌尔都问答语料库

介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

May, 2024

SberQuAD - 俄语阅读理解数据集：描述与分析

介绍了 SberQuAD 这一俄语数据集资源，提供了评估、分析和实验结果等基础性研究。

Dec, 2019

JaQuAD: 用于机器阅读理解的日语问答数据集

本文提出了 JaQuAD 数据集，它是一种由人类注释的日语问答数据集，用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调，测试数据集上的 F1 得分为 78.92％，EM 为 63.38％。

Feb, 2022

Event-QA: 在知识图谱上进行以事件为中心的问答数据集

本研究介绍了 Event-QA 数据集，该数据集专注于回答关于事件的问题，针对现有 QA 系统和数据集关注于实体问题的情况，提供了一种新的回答事件问题的方法。

Apr, 2020