维基百科公平的多语言破坏检测系统

Jun, 2023

维基百科公平的多语言破坏检测系统

Fair multilingual vandalism detection system for Wikipedia

Mykola Trokhymovych, Muniza Aslam, Ai-Jou Chou, Ricardo Baeza-Yates, Diego Saez-Trumper

TL;DR本文介绍了一种新型系统的设计，旨在支持维基百科社区解决平台上的破坏行为。通过收集 47 种语言的大规模数据集和应用高级过滤和特征工程技术，包括多语言掩蔽语言模型，从人类生成的数据中构建训练数据集。通过与维基百科生产中使用的 ORES 进行比较评估系统的性能。我们的研究结果大大增加了覆盖的语言数量，使维基百科的巡逻对更广泛的社区更加高效。此外，我们的模型胜过 ORES，确保所提供的结果不仅更准确，而且对某些贡献者群体的偏见较小。

Abstract

This paper presents a novel design of the system aimed at supporting the wikipedia community in addressing vandalism on the platform. To achieve this, we collected a massive dataset of 47 languages, and applied a

wikipedia vandalism multilingual modeling ores

发现论文，激发创造

一个用于评分维基百科可读性的开放多语言系统

通过构建多语言模型评价维基百科文章的可读性，作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率，并且提供了维基百科的可读性状况的第一个概述。

Jun, 2024

VEWS: 一种维基百科破坏行为早期预警系统

通过机器学习算法，我们开发了 3 种新型的特征来识别维基百科的破坏者。使用这些算法，我们可以在比其他最先进算法更早的时间发现潜在的破坏者，并提供更高的准确性。

Jul, 2015

多语言仇恨言论检测的深度学习模型

本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析，发现在低资源设置下，使用 LASER 嵌入和逻辑回归的简单模型性能最佳，在高资源设置下，BERT 模型表现更好。对于零样本分类，意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案，并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。

Apr, 2020

印度语言的多语言偏见检测和缓解

缺乏多元观点导致维基百科内容中的中立偏见，从而使数百万全球读者接触到潜在的不准确信息。因此，中立偏见的检测和缓解是一个关键问题。我们为此提供了两个大型数据集 mWikiBias 和 mWNC，分别涵盖 8 种语言，用于中立偏见的检测和缓解任务。接下来，我们通过将检测建模为二元分类问题和将缓解建模为样式转换问题，研究了流行的多语言基于 Transformer 的模型在这两个任务中的有效性。我们将代码和数据公开提供。

Dec, 2023

多语言维基百科研究的考虑因素

本文详细介绍了不同语言版本的维基百科之间存在的差异，并提出了如何使用多语言和多模态数据进行研究和建模的建议。

Apr, 2022

多语种和多方面仇恨言论分析

本论文介绍了一种新的多语言多方面仇恨言论分析数据集，并使用它测试当前最先进的多语言多任务学习方法，通过在各种分类环境下评估我们的数据集，我们讨论了如何利用我们的注释以改进仇恨言论的检测和分类。

Aug, 2019

Multiverse: 多语种的虚假新闻检测证据

该研究提出了使用多语言证据的多元宇宙特征用于较好的矫正和预测假新闻，并进行了对真假新闻自动实验的对比研究，结果显示该特征与语言特征的结合可以显著地提高假新闻的分类准确率。

Nov, 2022

Wikipedia 破坏行为早期检测：从用户行为到用户嵌入

这篇论文提出使用深度学习来检测维基百科的破坏者，通过开发多源长短时记忆网络（M-LSTM）来建模用户行为，并使用各种用户编辑方面作为输入来进行训练，从而将用户编码为低维实向量，即用户嵌入。最终，这些用户嵌入对于发现协同破坏者具有关键作用。

Jun, 2017

利用推荐技术跨语言扩展维基百科

本文提出了一种填补不同语言版本 Wikipedia 的文章覆盖范围空白的方法，通过识别缺失的文章，根据其重要性进行排序，并基于编辑人员的兴趣推荐给他们，经验证，个性化推荐可以将编辑人员的参与度提高两倍，推荐文章被创作的概率提高 3.2 倍，且创作出的文章的质量与自然创作的文章可比拟。该系统可以带来更多参与的编辑人员和更快地发展 Wikipedia，同时不会对其质量产生影响。

Apr, 2016

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022