Wiki-Reliability: 一个面向维基百科内容可靠性的大规模数据集

SIGIRMay, 2021

Wiki-Reliability: 一个面向维基百科内容可靠性的大规模数据集

Wiki-Reliability: A Large Scale Dataset for Content Reliability on Wikipedia

KayYen Wong, Miriam Redi, Diego Saez-Trumper

TL;DR本文介绍了 Wiki-Reliability 数据集，该数据集是由标记为具有广泛内容可靠性问题的英文维基百科文章构建的，主要应用于内容可靠性预测的机器学习和信息检索算法的研究。

Abstract

wikipedia is the largest online encyclopedia, used by algorithms and web users as a central hub of reliable information on the web. The quality and reliability of wikipedia content is maintained by a community of

wikipedia content reliability machine learning information retrieval dataset

发现论文，激发创造

维基百科文章的自动质量评估 —— 系统文献综述

维基百科是世界上最大的在线百科全书，但通过合作维护文章质量是具有挑战性的。本文回顾了现有的自动测量维基百科文章质量的方法，并识别和比较了机器学习算法、文章特征、质量指标和使用的数据集，检查了 149 个独立的研究，并探讨了它们之间的共同点和差距。然而，机器学习在维基百科中仍未被广泛使用，我们希望我们的分析能帮助未来的研究人员改变这种现状。

Oct, 2023

WikiSQE：维基百科句子质量评估的大规模数据集

提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE，包含了约 340 万句子和 153 个质量标签，并通过机器学习模型进行了实验自动分类，显示具有引文、句法 / 语义或命题问题的句子更难以检测，该数据集在自动化的文章评分实验中表现出更好的泛化性能，并有望成为自然语言处理中其他任务的有价值的资源。

May, 2023

WIKIR: 基于维基百科构建大规模英语信息检索数据集的 Python 工具包

本文提出了一种基于 Wikipedia 的开源工具 WIKIR 来自动构建大规模英文信息检索数据集，提供了 wikIR78k 和 wikIRS78k 两种共 78628 个查询和 3060191 个 (query,relevant documents) 匹配数据的公开数据集，以解决当前深度学习方法在小数据集上表现不佳并难以进行学术研究问题。

Dec, 2019

一个用于评分维基百科可读性的开放多语言系统

通过构建多语言模型评价维基百科文章的可读性，作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率，并且提供了维基百科的可读性状况的第一个概述。

Jun, 2024

WikiHow：一个大规模的文本摘要数据集

本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Oct, 2018

WikiDes: 一份基于维基百科的数据集，用于从段落中生成简短描述

介绍了一个新的名为 WikiDes 的数据集，利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明，该方法在文本摘要中的表现优于传统方法，并可用于生成缺失的描述，丰富 Wikidata 知识图谱。

Sep, 2022

WikiTableT: 为生成维基百科文章章节而设计的大规模数据转文本语料库

本文针对将生成维基百科文章作为一种数据到文本生成任务的问题，创建了一个大规模数据集 WikiTableT，该数据集包含了数以百万计的实例，覆盖了广泛的主题，并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析，结果表明最佳方法能够生成流畅和高质量的文本，但它们在连贯性和真实性方面仍面临挑战，这表明该数据集可以激发未来关于长篇文本生成的研究。

Dec, 2020

Wikibench: 基于社区驱动的维基百科 AI 评估数据整理

AI 工具越来越多地在社区环境中部署。然而，用于评估 AI 的数据集通常由社区之外的开发者和注释者创建，这可能对 AI 性能产生误导性结论。本研究调查了如何赋予社区推动 AI 评估数据集的有意设计和策划的能力，我们在维基百科进行了探索。我们引入了 Wikibench，这是一个系统，可以让社区协作策划 AI 评估数据集，并通过讨论解决歧义和观点差异。维基百科的实地研究表明，使用 Wikibench 策划的数据集能够有效捕捉到社区的共识、分歧和不确定性。此外，研究参与者使用 Wikibench 来塑造整个数据策划过程，包括改善标签定义、确定数据包含标准和撰写数据说明。根据我们的研究结果，我们提出了支持社区驱动的数据策划的未来发展方向。

Feb, 2024

WikiReading：基于维基百科的大规模语言理解任务

本论文介绍了一个基于大规模数据集的自然语言理解任务 - WikiReading，通过阅读相应维基百科文章，预测结构化知识库维基数据中的文本值，并对基于深度神经网络的模型进行了比较，发现最佳模型采用了一个具有复制词汇外单词机制的词级序列模型，获得了 71.8％的准确率。

Aug, 2016

Wiki-CS: 基于维基百科的图神经网络基准

我们提出了 Wiki-CS 数据集，它是从维基百科中导出来的，用于基准测试图神经网络。该数据集包含计算机科学文章对应的节点，边基于超链接和 10 个代表该领域不同分支的类别。我们使用该数据集评估半监督节点分类和单关系链预测模型，实验结果表明这些方法在一个新的领域、具有不同于以前基准测试的结构特性时表现良好。数据集和数据管道的实现以及基准实验均可公开获得。

Jul, 2020