一个用于评分维基百科可读性的开放多语言系统
本文提出了一种填补不同语言版本 Wikipedia 的文章覆盖范围空白的方法,通过识别缺失的文章,根据其重要性进行排序,并基于编辑人员的兴趣推荐给他们,经验证,个性化推荐可以将编辑人员的参与度提高两倍,推荐文章被创作的概率提高 3.2 倍,且创作出的文章的质量与自然创作的文章可比拟。该系统可以带来更多参与的编辑人员和更快地发展 Wikipedia,同时不会对其质量产生影响。
Apr, 2016
维基百科是世界上最大的在线百科全书,但通过合作维护文章质量是具有挑战性的。本文回顾了现有的自动测量维基百科文章质量的方法,并识别和比较了机器学习算法、文章特征、质量指标和使用的数据集,检查了 149 个独立的研究,并探讨了它们之间的共同点和差距。然而,机器学习在维基百科中仍未被广泛使用,我们希望我们的分析能帮助未来的研究人员改变这种现状。
Oct, 2023
本文介绍了一种新型系统的设计,旨在支持维基百科社区解决平台上的破坏行为。通过收集 47 种语言的大规模数据集和应用高级过滤和特征工程技术,包括多语言掩蔽语言模型,从人类生成的数据中构建训练数据集。通过与维基百科生产中使用的 ORES 进行比较评估系统的性能。我们的研究结果大大增加了覆盖的语言数量,使维基百科的巡逻对更广泛的社区更加高效。此外,我们的模型胜过 ORES,确保所提供的结果不仅更准确,而且对某些贡献者群体的偏见较小。
Jun, 2023
本文介绍了 Wiki-Reliability 数据集,该数据集是由标记为具有广泛内容可靠性问题的英文维基百科文章构建的,主要应用于内容可靠性预测的机器学习和信息检索算法的研究。
May, 2021
本文通过在 14 种不同语言版本的维基百科上进行大规模的调查和用户行为跟踪分析,比较研究读者对维基百科的使用情况和行为习惯,发现不同语言版本的维基百科普遍存在一些共同但也有实质性的差异,其中某些使用情况与特定的行为模式密切相关,并且特定的维基百科使用情况更常见于一些具有特定社会经济特征的国家。这些发现对于维基百科的编辑和其他 Web 技术的开发具有重要意义,有助于更好地了解读者的动机和行为。
Dec, 2018
本论文介绍了一个基于大规模数据集的自然语言理解任务 - WikiReading,通过阅读相应维基百科文章,预测结构化知识库维基数据中的文本值,并对基于深度神经网络的模型进行了比较,发现最佳模型采用了一个具有复制词汇外单词机制的词级序列模型,获得了 71.8%的准确率。
Aug, 2016
本文探讨如何使用 Wikidata 中的结构化数据来生成在 Wikipedia 贫穷语言中的开放领域概要。 为此,作者提出了一种神经网络结构,该结构配备有复制操作,可以学习从 Wikidata 三元组中生成单个句子和可理解的文本摘要。作者在阿拉伯语和世界语这两种不同特性的语言上对所提出的方法进行了评估,并证明了它的有效性。
Mar, 2018
本研究介绍了一个名为 MegaWika 的数据集,包含 13 百万篇维基百科文章和 71 百万篇引用来源材料,可以用于协作的人工智能辅助报告生成。此外,还实现了跨语言应用的非英文文章翻译和基于 FrameNet 的自动语义分析,并提供了跨语言问答和引用检索的基线结果和训练模型。
Jul, 2023
使用 Wikipedia 和 Freebase 知识库,我们构建了一个全球长尾实体排名模型,涵盖多种语言。我们为实体识别提出了多个特征并建立了一个模型,使用一组超过一万个标签作为基础数据集。最终系统的准确率为 75%,F1 得分为 48%。我们提供了性能评估和排名质量的经验证据,并为未来研究开放了最终排名列表。
Mar, 2017