Wiki-Reliability: 一个面向维基百科内容可靠性的大规模数据集
维基百科是世界上最大的在线百科全书,但通过合作维护文章质量是具有挑战性的。本文回顾了现有的自动测量维基百科文章质量的方法,并识别和比较了机器学习算法、文章特征、质量指标和使用的数据集,检查了 149 个独立的研究,并探讨了它们之间的共同点和差距。然而,机器学习在维基百科中仍未被广泛使用,我们希望我们的分析能帮助未来的研究人员改变这种现状。
Oct, 2023
提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE,包含了约 340 万句子和 153 个质量标签,并通过机器学习模型进行了实验自动分类,显示具有引文、句法 / 语义或命题问题的句子更难以检测,该数据集在自动化的文章评分实验中表现出更好的泛化性能,并有望成为自然语言处理中其他任务的有价值的资源。
May, 2023
本文提出了一种基于 Wikipedia 的开源工具 WIKIR 来自动构建大规模英文信息检索数据集,提供了 wikIR78k 和 wikIRS78k 两种共 78628 个查询和 3060191 个 (query,relevant documents) 匹配数据的公开数据集,以解决当前深度学习方法在小数据集上表现不佳并难以进行学术研究问题。
Dec, 2019
通过构建多语言模型评价维基百科文章的可读性,作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率,并且提供了维基百科的可读性状况的第一个概述。
Jun, 2024
本研究介绍了一种基于在线知识库的数据集 WikiHow,包含超过 230,000 个文章和摘要对,用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。
Oct, 2018
介绍了一个新的名为 WikiDes 的数据集,利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明,该方法在文本摘要中的表现优于传统方法,并可用于生成缺失的描述,丰富 Wikidata 知识图谱。
Sep, 2022
本文针对将生成维基百科文章作为一种数据到文本生成任务的问题,创建了一个大规模数据集 WikiTableT,该数据集包含了数以百万计的实例,覆盖了广泛的主题,并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析,结果表明最佳方法能够生成流畅和高质量的文本,但它们在连贯性和真实性方面仍面临挑战,这表明该数据集可以激发未来关于长篇文本生成的研究。
Dec, 2020
AI 工具越来越多地在社区环境中部署。然而,用于评估 AI 的数据集通常由社区之外的开发者和注释者创建,这可能对 AI 性能产生误导性结论。本研究调查了如何赋予社区推动 AI 评估数据集的有意设计和策划的能力,我们在维基百科进行了探索。我们引入了 Wikibench,这是一个系统,可以让社区协作策划 AI 评估数据集,并通过讨论解决歧义和观点差异。维基百科的实地研究表明,使用 Wikibench 策划的数据集能够有效捕捉到社区的共识、分歧和不确定性。此外,研究参与者使用 Wikibench 来塑造整个数据策划过程,包括改善标签定义、确定数据包含标准和撰写数据说明。根据我们的研究结果,我们提出了支持社区驱动的数据策划的未来发展方向。
Feb, 2024
本论文介绍了一个基于大规模数据集的自然语言理解任务 - WikiReading,通过阅读相应维基百科文章,预测结构化知识库维基数据中的文本值,并对基于深度神经网络的模型进行了比较,发现最佳模型采用了一个具有复制词汇外单词机制的词级序列模型,获得了 71.8%的准确率。
Aug, 2016
我们提出了 Wiki-CS 数据集,它是从维基百科中导出来的,用于基准测试图神经网络。该数据集包含计算机科学文章对应的节点,边基于超链接和 10 个代表该领域不同分支的类别。我们使用该数据集评估半监督节点分类和单关系链预测模型,实验结果表明这些方法在一个新的领域、具有不同于以前基准测试的结构特性时表现良好。数据集和数据管道的实现以及基准实验均可公开获得。
Jul, 2020