WikiOmnia: 面向全俄罗斯维基百科的生成式问答语料库

EMNLPApr, 2022

WikiOmnia: 面向全俄罗斯维基百科的生成式问答语料库

WikiOmnia: generative QA corpus on the whole Russian Wikipedia

Dina Pisarevskaya, Tatiana Shavrina

TL;DR该研究提出了 WikiOmnia 数据集，该数据集是一个公开的 QA 对和相应俄语维基百科文章摘要部分集合。该数据集通过自动化生成流程组成，可在不同领域（例如新闻文本、小说和社交媒体）中创建 SQuAD 格式的 QA，其结果数据集包括原始数据和经自动验证的清理数据。

Abstract

The general qa field has been developing the methodology referencing the Stanford Question answering dataset (squad) as the significant benchmark. However, compiling factual questions is accompanied by time- and

general qa field squad wikiomnia dataset russian wikipedia generative pipeline

发现论文，激发创造

RuBQ: 一个用于维基数据问答的俄语数据集

文章介绍了 RuBQ，第一个俄语知识库问答（KBQA）数据集，它包括 1,500 个俄语问题、它们的英语机器翻译、SPARQL 查询到维基数据、参考答案和一些包含俄语标签实体的维基数据样本。数据集的创建经历了自动过滤、众包实体链接、自动生成 SPARQL 查询以及后续的审核。

May, 2020

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

KazQAD: 哈萨克语开放域问答数据集

我们介绍了 KazQAD 这个哈萨克斯坦的开放域问题回答数据集，可用于阅读理解和完整的 ODQA 设置，以及信息检索实验。该数据集包含近 6,000 个独特问题、提取的简短答案和将近 12,000 个段落级相关性判断。我们使用机器翻译、维基百科搜索和内部手动注释的组合来确保注释效率和数据质量。问题来自两个来源：从自然问题（NQ）数据集翻译而来的项目（仅用于训练）和哈萨克统一国家考试（UNT）的原始考题（用于开发和测试）。相关的文本语料库包含来自哈萨克斯坦维基百科的超过 800,000 个段落。作为补充数据集，我们发布了大约 61,000 个问题 - 段落 - 答案三元组，这些三元组已经被机器翻译成了哈萨克语。我们开发了基准检索器和阅读器，在检索（NDCG@10 = 0.389 MRR = 0.382）、阅读理解（EM = 38.5 F1 = 54.2）和完整的 ODQA（EM = 17.8 F1 = 28.7）设置下取得了合理的分数。然而，与英文 QA 集合的最新结果相比，这些结果要低得多，我们认为仍然有很大的改进空间。我们还表明目前的 OpenAI 的 ChatGPTv3.5 无法以可接受的质量回答 KazQAD 的测试问题（闭卷设置）。该数据集在创作公共许可证（CC BY-SA）下免费提供，链接为 https URL。

Apr, 2024

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

CCQA：用于模型预训练的新型 Web 规模问答数据集

本文提出一种在 Common Crawl 项目的基础上，使用大规模、自然、多样化问答数据集进行领域内预训练的方法，该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置，展示了预训练在该任务中的潜力。

Oct, 2021

通过手动注释提高问答性能：成本、效益和策略

本文介绍并公开发布了 PolQA，这是第一个用于 OpenQA 的波兰语数据集。该数据集包含 7,000 个问题，87,525 个手动标注的证据段落和超过 7,097,322 个候选段落。该资源允许我们评估不同注释选择对 QA 系统性能的影响，并提出一种有效的注释策略，使召回率提高了 10.55 p.p. 并同时将注释成本降低了 82％。

Dec, 2022

MAUPQA：大规模自动生成的波兰问答数据集

本文探讨了自动收集弱标签数据集的方法，并展示了它们对神经检索模型的性能的影响。通过本文，我们发布了 MAUPQA 数据集，其中包含接近 400,000 个波兰语问题 - 段落对，以及 HerBERT-QA 神经检索器。

May, 2023

面向问答系统的俄语 Jeopardy! 数据集

本文介绍了来自俄罗斯官方问答数据库 Chgk 的 Jeopardy！- 类俄语问答数据集，包括 379,284 个问题，观察其语言特征和相关的 QA 任务，并总结了基于该数据集的 QA 竞赛的前景。

Dec, 2021

WikiSQE：维基百科句子质量评估的大规模数据集

提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE，包含了约 340 万句子和 153 个质量标签，并通过机器学习模型进行了实验自动分类，显示具有引文、句法 / 语义或命题问题的句子更难以检测，该数据集在自动化的文章评分实验中表现出更好的泛化性能，并有望成为自然语言处理中其他任务的有价值的资源。

May, 2023

神经网络阿拉伯语问答

本文介绍了一个使用维基百科作为知识来源来解决阿拉伯语开放领域事实问题回答的方法，提出了阿拉伯阅读理解数据集（ARCD），并使用预训练的双向转换器 BERT 构建了 SOQAL 系统来回答问题，实验结果表明其有效性。

Jun, 2019