一个用于评分维基百科可读性的开放多语言系统

Jun, 2024

一个用于评分维基百科可读性的开放多语言系统

An Open Multilingual System for Scoring Readability of Wikipedia

Mykola Trokhymovych, Indira Sen, Martin Gerlach

TL;DR通过构建多语言模型评价维基百科文章的可读性，作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率，并且提供了维基百科的可读性状况的第一个概述。

Abstract

With over 60M articles, wikipedia has become the largest platform for open and freely accessible knowledge. While it has more than 15B monthly visits, its content is believed to be inaccessible to many readers due to the lack of readability of its text. However, previous investigations

wikipedia readability assessment multilingual model ranking accuracy state of readability

发现论文，激发创造

利用推荐技术跨语言扩展维基百科

本文提出了一种填补不同语言版本 Wikipedia 的文章覆盖范围空白的方法，通过识别缺失的文章，根据其重要性进行排序，并基于编辑人员的兴趣推荐给他们，经验证，个性化推荐可以将编辑人员的参与度提高两倍，推荐文章被创作的概率提高 3.2 倍，且创作出的文章的质量与自然创作的文章可比拟。该系统可以带来更多参与的编辑人员和更快地发展 Wikipedia，同时不会对其质量产生影响。

Apr, 2016

维基百科文章的自动质量评估 —— 系统文献综述

维基百科是世界上最大的在线百科全书，但通过合作维护文章质量是具有挑战性的。本文回顾了现有的自动测量维基百科文章质量的方法，并识别和比较了机器学习算法、文章特征、质量指标和使用的数据集，检查了 149 个独立的研究，并探讨了它们之间的共同点和差距。然而，机器学习在维基百科中仍未被广泛使用，我们希望我们的分析能帮助未来的研究人员改变这种现状。

Oct, 2023

维基百科公平的多语言破坏检测系统

本文介绍了一种新型系统的设计，旨在支持维基百科社区解决平台上的破坏行为。通过收集 47 种语言的大规模数据集和应用高级过滤和特征工程技术，包括多语言掩蔽语言模型，从人类生成的数据中构建训练数据集。通过与维基百科生产中使用的 ORES 进行比较评估系统的性能。我们的研究结果大大增加了覆盖的语言数量，使维基百科的巡逻对更广泛的社区更加高效。此外，我们的模型胜过 ORES，确保所提供的结果不仅更准确，而且对某些贡献者群体的偏见较小。

Jun, 2023

多语言维基百科研究的考虑因素

本文详细介绍了不同语言版本的维基百科之间存在的差异，并提出了如何使用多语言和多模态数据进行研究和建模的建议。

Apr, 2022

Wiki-Reliability: 一个面向维基百科内容可靠性的大规模数据集

本文介绍了 Wiki-Reliability 数据集，该数据集是由标记为具有广泛内容可靠性问题的英文维基百科文章构建的，主要应用于内容可靠性预测的机器学习和信息检索算法的研究。

May, 2021

全球为何阅读维基百科：超越英语使用者

本文通过在 14 种不同语言版本的维基百科上进行大规模的调查和用户行为跟踪分析，比较研究读者对维基百科的使用情况和行为习惯，发现不同语言版本的维基百科普遍存在一些共同但也有实质性的差异，其中某些使用情况与特定的行为模式密切相关，并且特定的维基百科使用情况更常见于一些具有特定社会经济特征的国家。这些发现对于维基百科的编辑和其他 Web 技术的开发具有重要意义，有助于更好地了解读者的动机和行为。

Dec, 2018

WikiReading：基于维基百科的大规模语言理解任务

本论文介绍了一个基于大规模数据集的自然语言理解任务 - WikiReading，通过阅读相应维基百科文章，预测结构化知识库维基数据中的文本值，并对基于深度神经网络的模型进行了比较，发现最佳模型采用了一个具有复制词汇外单词机制的词级序列模型，获得了 71.8％的准确率。

Aug, 2016

从 Wikidata 学习为少数语言生成维基百科摘要

本文探讨如何使用 Wikidata 中的结构化数据来生成在 Wikipedia 贫穷语言中的开放领域概要。为此，作者提出了一种神经网络结构，该结构配备有复制操作，可以学习从 Wikidata 三元组中生成单个句子和可理解的文本摘要。作者在阿拉伯语和世界语这两种不同特性的语言上对所提出的方法进行了评估，并证明了它的有效性。

Mar, 2018

MegaWika：50 种不同语言中数百万报告及其来源

本研究介绍了一个名为 MegaWika 的数据集，包含 13 百万篇维基百科文章和 71 百万篇引用来源材料，可以用于协作的人工智能辅助报告生成。此外，还实现了跨语言应用的非英文文章翻译和基于 FrameNet 的自动语义分析，并提供了跨语言问答和引用检索的基线结果和训练模型。

Jul, 2023

跨多语言的全球实体排名

使用 Wikipedia 和 Freebase 知识库，我们构建了一个全球长尾实体排名模型，涵盖多种语言。我们为实体识别提出了多个特征并建立了一个模型，使用一组超过一万个标签作为基础数据集。最终系统的准确率为 75％，F1 得分为 48％。我们提供了性能评估和排名质量的经验证据，并为未来研究开放了最终排名列表。

Mar, 2017