维基贡献者的模拟、建模与分类：辨别优秀、恶劣和丑陋

May, 2024

维基贡献者的模拟、建模与分类：辨别优秀、恶劣和丑陋

Simulation, Modelling and Classification of Wiki Contributors: Spotting The Good, The Bad, and The Ugly

Silvia García Méndez, Fátima Leal, Benedita Malheiro, Juan Carlos Burguillo Rial, Bruno Veloso...

TL;DR本文提出了一种模拟、建模和分类的方法来自动识别数据伪造，以平衡实验数据集中的类，构建和更新贡献者配置文件，并进行自动数据流分类，该方法在使用基于维基旅行的测试平台上表明显著提高分类器的可信度和质量，将恶意和良性机器人与人类贡献者区分度达到92%分类准确度。

Abstract

data crowdsourcing is a data acquisition process where groups of voluntary contributors feed platforms with highly relevant data ranging from news, comments, and media to knowledge and classifications. It typically processes user-generated data streams to provide and refine popular ser

发现论文，激发创造

ORES:在维基百科中使用参与式机器学习降低门槛

本文介绍了ORES：一种算法评分服务，支持在不同数据集上训练的多个独立分类器对wiki编辑进行实时评分，从而解耦了通常由工程师执行的许多活动。ORES的设计旨在将关于维基百科算法的社会技术对话开放给更广泛的参与者。文中还讨论了ORES启用的社会变革机制的理论机制，并详细介绍了自其部署以来5年来围绕ORES的参与式机器学习案例研究。

Sep, 2019

Wiki-Reliability: 一个面向维基百科内容可靠性的大规模数据集

本文介绍了 Wiki-Reliability 数据集，该数据集是由标记为具有广泛内容可靠性问题的英文维基百科文章构建的，主要应用于内容可靠性预测的机器学习和信息检索算法的研究。

May, 2021

以领域自适应为基础的众包学习: 一项针对命名实体识别的案例研究

本文提出了一种基于领域适应的、适用于众包的注释者感知特征学习模型，以减小众包注释的干扰，实现有效的监督式学习，将其应用于命名实体识别任务中，通过实验验证其在无或少量专家注释的情况下也可以实现极佳的效果，并取得了新的最高性能。

May, 2021

SynthBio: 人工智能和人类协作构建文本数据集的案例研究

本文提出一种利用大型语言模型实现高效数据集筛选的新方法，用于构建结构化属性列表描述虚构人物的评估数据集SynthBio，与WikiBio数据集相比更少噪声且更平衡。

Nov, 2021

CrowdWorkSheets: 基于个人和集体身份的众包数据集注释

本文调查了围绕众包数据集注释的伦理问题，深入探讨了注解者的背景对其注释的影响以及注解者与众包平台的关系所带来的影响，并提出了一种透明化关键决策点的数据注释框架——CrowdWorkSheets。

Jun, 2022

Wikibench: 基于社区驱动的维基百科AI评估数据整理

AI工具越来越多地在社区环境中部署。然而，用于评估AI的数据集通常由社区之外的开发者和注释者创建，这可能对AI性能产生误导性结论。本研究调查了如何赋予社区推动AI评估数据集的有意设计和策划的能力，我们在维基百科进行了探索。我们引入了Wikibench，这是一个系统，可以让社区协作策划AI评估数据集，并通过讨论解决歧义和观点差异。维基百科的实地研究表明，使用Wikibench策划的数据集能够有效捕捉到社区的共识、分歧和不确定性。此外，研究参与者使用Wikibench来塑造整个数据策划过程，包括改善标签定义、确定数据包含标准和撰写数据说明。根据我们的研究结果，我们提出了支持社区驱动的数据策划的未来发展方向。

Feb, 2024

用于在线部署适用的真实推断算法验证数据集

通过收集真实世界众包平台上的大量数据样本，本文分析了数据集的特征并评估了几种代表性真实标签推断算法的有效性，为跟踪不同类型任务下工作者的能力随时间变化以及增强在线真实标签推断提供了启示。

Mar, 2024

众包中的数据质量与垃圾行为检测

通过方差分解来评估数据质量和检测垃圾信息威胁，提出垃圾信息指数评估整体数据一致性，并利用马尔可夫链和广义随机效应模型开发了两个指标来衡量群体工作者的可信度。

Apr, 2024

可解释的Wiki评论流分类

通过挖掘维基百科中的评论流，使用自解释的分类算法对评论进行分类和编辑进行特征分析，以保护文章免受破坏，并提供了一种生成合成数据进行分类的算法，该方法在实验中取得了近90%的评估指标值。

May, 2024

HelloFresh: 在X社群笔记和维基百科编辑流中对真实世界人类编辑行为的LLM评估

设计LLM基准测试是具有挑战性的，HelloFresh是一种基于实时数据生成的基准测试方法，可以解决测试数据污染和过拟合问题，并通过不断地生成新的评估数据来实现持续评估。

Jun, 2024