Jun, 2023

维基百科公平的多语言破坏检测系统

TL;DR本文介绍了一种新型系统的设计,旨在支持维基百科社区解决平台上的破坏行为。通过收集 47 种语言的大规模数据集和应用高级过滤和特征工程技术,包括多语言掩蔽语言模型,从人类生成的数据中构建训练数据集。通过与维基百科生产中使用的 ORES 进行比较评估系统的性能。我们的研究结果大大增加了覆盖的语言数量,使维基百科的巡逻对更广泛的社区更加高效。此外,我们的模型胜过 ORES,确保所提供的结果不仅更准确,而且对某些贡献者群体的偏见较小。