本文研究如何在预算限制下,选择优质工人子集以达到最大准确性,并通过组合优化算法解决此问题,证明该算法能够有效地选择少数高质量工人,并在模拟和实际数据集上表现良好。
Feb, 2015
本文介绍了众包质量控制中机制设计和统计模型两大分支的研究和应用,提出了系统化统一机制以确定响应质量的框架,并对质量控制论文进行了分类,并指出了当前的限制和未来的方向。
Dec, 2018
本文提出了一种快速评判用于二元和分类标签的技术,避免所有错误,快速评判的同时通过随机任务顺序和建模响应延迟来纠正错误,通过广泛的标记任务验证,相较于之前工作实现的 0.25x 到 1x 的加速,我们的方法通常实现 10 倍的加速效果。
Feb, 2016
本研究利用大规模的纵向数据集,研究了众包工作者在从事长时间的重复任务时的行为,发现他们的工作质量极其稳定,建立了一种预测工作者长期质量的方法。
Sep, 2016
通过方差分解来评估数据质量和检测垃圾信息威胁,提出垃圾信息指数评估整体数据一致性,并利用马尔可夫链和广义随机效应模型开发了两个指标来衡量群体工作者的可信度。
Apr, 2024
使用置信区间寻找估计注释错误率所需的最小样本量,然后提出应用接受抽样作为错误率估计的一种替代方法,展示接受抽样可以减少最多 50% 的所需样本量,同时提供相同的统计保证。
May, 2024
本文介绍了构建置信区间的方法,以评估匹配算法的误差率,并探讨了样本大小、误差率和数据相关性对覆盖率和区间宽度的影响。研究发现,在匹配任务中构建置信区间的最佳实践包括注意数据原型、选择适当的置信水平以及进行模拟和分析。
Jun, 2023
本文介绍了一种利用码的错误控制代码和解码算法来设计众包系统的方法,以实现对于不可靠众包工作者进行可靠分类。我们分析了三种不同的众包模型,并考虑了众包质量的排序原则,结果表明利用好的码可能优于常规的多数表决方法。
Sep, 2013
本文考虑众包任务分配中的可靠性问题,提出了一种基于置信传播和低秩矩阵逼近的算法来决定如何分配任务,并从工人的答案中推断出正确答案。比较了不同算法的表现,发现基于者非自适应的算法是最优的。此外,还强调了建立可靠的工人信誉系统对于完全运用自适应设计的潜力至关重要。
Oct, 2011
本文提出一种名为 Triangular Estimation(TE)的算法用于估计众包工作者的可靠性,并得出了一个新的下限,该下限适用于任何估计程序。通过对合成和现实数据集的性能评估,证明 TE 的最小最大近似误差具有优越性。
Jun, 2016