众包中误差率界限与迭代加权多数表决

Nov, 2014

众包中误差率界限与迭代加权多数表决

Error Rate Bounds and Iterative Weighted Majority Voting for Crowdsourcing

Hongwei Li, Bin Yu

TL;DR本文针对人力众包任务标注中工作者不可靠的情况，提出一种基于权重投票的错误率上界优化方法，并给出了多类标注错误率（包括期望和概率）的有限样本指数界。实验结果表明该方法不仅在模拟数据上表现良好，而且在实际数据上与现有方法一致，但计算成本要小大约100倍。

Abstract

crowdsourcing has become an effective and popular tool for human-powered computation to label large datasets. Since the workers can be unreliable, it is common in →

发现论文，激发创造

可靠众包系统的预算最优任务分配

本文考虑众包任务分配中的可靠性问题，提出了一种基于置信传播和低秩矩阵逼近的算法来决定如何分配任务，并从工人的答案中推断出正确答案。比较了不同算法的表现，发现基于者非自适应的算法是最优的。此外，还强调了建立可靠的工人信誉系统对于完全运用自适应设计的潜力至关重要。

Oct, 2011

众包的正则化极小极大条件熵

本文提出了一种利用极小化最大条件熵原理从嘈杂的众包标签中推断出真实标签的独特概率标记模型，该模型考虑到了工人能力和项目难度等因素，并提出了客观测量原则验证。

Mar, 2015

面向众包系统的时序贝叶斯信息聚合

本文介绍了一种新的时间敏感的贝叶斯聚合方法，称为BCCTime，该方法同时估计任务的持续时间并获得可靠的聚合众包判断，该方法使用潜在变量表示关于工人完成时间、任务持续时间和工人准确性的不确定性，通过高效的信息传递贝叶斯推理来学习关于每个工人和任务的后验概率，并与现有方法相比产生更准确的分类以及更多的任务持续时间估计。

Oct, 2015

通过自适应方案在众包中实现预算最优

该研究探讨了如何在固定预算下最大化标注数据的精确度，比较自适应任务分配与非自适应任务分配之间的优劣，并使用概率模型来解决这个问题。

Feb, 2016

基于信念传播的众包分类最优推断

本文研究了在众包标注过程中，利用 Dawid-Skene 模型恢复错误标注并输出正确标注问题，提出了一种更紧密的下限和 Belief Propagation （BP）算法来解决这一问题。实验结果表明，BP是所有算法中最优的。

Feb, 2016

拥抱错误以实现快速众包

本文提出了一种快速评判用于二元和分类标签的技术，避免所有错误，快速评判的同时通过随机任务顺序和建模响应延迟来纠正错误，通过广泛的标记任务验证，相较于之前工作实现的0.25x到1x的加速，我们的方法通常实现10倍的加速效果。

Feb, 2016

一种极小极大算法用于群体外包

本文提出一种名为Triangular Estimation（TE）的算法用于估计众包工作者的可靠性，并得出了一个新的下限，该下限适用于任何估计程序。通过对合成和现实数据集的性能评估，证明TE的最小最大近似误差具有优越性。

Jun, 2016

众包的极小化误差率分析及其在工人聚类模型中的应用

该研究针对实际的众包模型和更广泛类别的众包模型，推导出更实用的Dawid和Skene模型的最小化极差错误率，并提出了一种更实用的工人聚类模型，得到的实验结果与理论分析结果在最小极差错误率下具有较强的相似性。

Feb, 2018

一种轻量、有效和高效的众包标签聚合模型

本文提出了两个轻量级算法LA extsuperscript{onepass}和LA extsuperscript{twopass}，通过动态贝叶斯网络建模聚合标签，可以有效地、高效地估计工作者质量和真实标签，并可以在不重新访问历史数据的情况下在线估计真正的标签值。

Nov, 2022

众包中的数据质量与垃圾行为检测

通过方差分解来评估数据质量和检测垃圾信息威胁，提出垃圾信息指数评估整体数据一致性，并利用马尔可夫链和广义随机效应模型开发了两个指标来衡量群体工作者的可信度。

Apr, 2024