评估人群的可靠性

Nov, 2014

Evaluating the Crowd with Confidence

Manas Joglekar, Hector Garcia-Molina, Aditya Parameswaran

TL;DR本文介绍了一种用于生成工人错误率估计的置信区间的技术，以更好地评估工人质量。实验结果表明该技术在真实数据集中能生成正确的置信区间，并可用于清退表现不佳的工人，并为答案的准确性提供置信区间。

Abstract

worker quality control is a crucial aspect of crowdsourcing systems; typically occupying a large fraction of the time and money invested on crowdsourcing. In this work, we devise techniques to generate confidence

worker quality control crowdsourcing systems confidence intervals worker error rate estimates evaluation

发现论文，激发创造

廉价而更好：众包选择好工作者

本文研究如何在预算限制下，选择优质工人子集以达到最大准确性，并通过组合优化算法解决此问题，证明该算法能够有效地选择少数高质量工人，并在模拟和实际数据集上表现良好。

Feb, 2015

众包质量控制的统计建模和设计方法技术调研

本文介绍了众包质量控制中机制设计和统计模型两大分支的研究和应用，提出了系统化统一机制以确定响应质量的框架，并对质量控制论文进行了分类，并指出了当前的限制和未来的方向。

Dec, 2018

拥抱错误以实现快速众包

本文提出了一种快速评判用于二元和分类标签的技术，避免所有错误，快速评判的同时通过随机任务顺序和建模响应延迟来纠正错误，通过广泛的标记任务验证，相较于之前工作实现的 0.25x 到 1x 的加速，我们的方法通常实现 10 倍的加速效果。

Feb, 2016

深入未来：理解长期众包工作者质量

本研究利用大规模的纵向数据集，研究了众包工作者在从事长时间的重复任务时的行为，发现他们的工作质量极其稳定，建立了一种预测工作者长期质量的方法。

Sep, 2016

众包中的数据质量与垃圾行为检测

通过方差分解来评估数据质量和检测垃圾信息威胁，提出垃圾信息指数评估整体数据一致性，并利用马尔可夫链和广义随机效应模型开发了两个指标来衡量群体工作者的可信度。

Apr, 2024

关于数据标注的高效和统计质量估计

使用置信区间寻找估计注释错误率所需的最小样本量，然后提出应用接受抽样作为错误率估计的一种替代方法，展示接受抽样可以减少最多 50% 的所需样本量，同时提供相同的统计保证。

May, 2024

匹配任务误差率置信区间：关键审查和建议

本文介绍了构建置信区间的方法，以评估匹配算法的误差率，并探讨了样本大小、误差率和数据相关性对覆盖率和区间宽度的影响。研究发现，在匹配任务中构建置信区间的最佳实践包括注意数据原型、选择适当的置信水平以及进行模拟和分析。

Jun, 2023

使用编码理论进行多类标注的可靠众包

本文介绍了一种利用码的错误控制代码和解码算法来设计众包系统的方法，以实现对于不可靠众包工作者进行可靠分类。我们分析了三种不同的众包模型，并考虑了众包质量的排序原则，结果表明利用好的码可能优于常规的多数表决方法。

Sep, 2013

可靠众包系统的预算最优任务分配

本文考虑众包任务分配中的可靠性问题，提出了一种基于置信传播和低秩矩阵逼近的算法来决定如何分配任务，并从工人的答案中推断出正确答案。比较了不同算法的表现，发现基于者非自适应的算法是最优的。此外，还强调了建立可靠的工人信誉系统对于完全运用自适应设计的潜力至关重要。

Oct, 2011

一种极小极大算法用于群体外包

本文提出一种名为 Triangular Estimation（TE）的算法用于估计众包工作者的可靠性，并得出了一个新的下限，该下限适用于任何估计程序。通过对合成和现实数据集的性能评估，证明 TE 的最小最大近似误差具有优越性。

Jun, 2016