众包的监督集体分类
本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法,该算法基于变分推断,可以比无监督众包分类更有效地对人工注释信息进行聚合,该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。
Dec, 2020
使用 Learning from Crowds 框架中的 Label Selection Layer 方法,通过选择性网络确定是否使用工人的标签进行训练,提供了一种有效的解决 Crowd annotations 中的标签噪声问题的方法。实验证明该方法在几乎所有的监督学习问题中都能获得与或优于当前最先进的方法相当的性能。
Aug, 2023
提出一种新的算法来联合建模标签和工作者质量,从带有噪声的众包数据中学习,可优化有限的标注资源,解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。
Dec, 2017
Crowd-Certain 是一种在众包和集成学习分类任务中进行标签聚合的新方法,通过评估标注者的一致性和受训分类器,确定每个标注者的可靠性分数,并利用预测概率实现对未来样本数据的训练分类器的复用,大幅提升性能和计算效率。在对十个不同数据集进行了广泛评估后,Crowd-Certain 几乎在所有场景中优于现有的十种方法,提供更高的平均准确率、F1 分数和 AUC 率。另外,我们引入了两种现有置信度评估技术的变体,并通过两种评估指标(期望校准误差和 Brier 得分损失)对其进行了评估,结果表明 Crowd-Certain 在大部分数据集上具有更高的 Brier 得分和更低的校准误差,表明结果的校准更好。
Oct, 2023
本文提出了一种基于 EM 算法和众包技术的神经网络训练模型,能够直接从多个标注者的嘈杂标签数据中进行有监督学习,并能够捕捉不同标注者的可靠性和偏见,最终在多个领域获得了新的最优结果。
Sep, 2017
依靠众包工人,数据众包平台能够高效地提供大量带标签的数据,本文提出一种名为 SuperLA 的监督标签聚合方法,不需要在推理期间进行模型更新,并且能广泛利用历史标注记录,通过对 22 个公共数据集和 11 个基准方法的比较实验发现,SuperLA 不仅在推理性能上优于所有基准方法,而且在效率方面也具有显著优势。
Nov, 2023
本文介绍了一种利用码的错误控制代码和解码算法来设计众包系统的方法,以实现对于不可靠众包工作者进行可靠分类。我们分析了三种不同的众包模型,并考虑了众包质量的排序原则,结果表明利用好的码可能优于常规的多数表决方法。
Sep, 2013
本文提出了两种基于监督学习的主题模型,分别用于分类和回归,能够考虑到实践中在不同的标注者之间遇到的多样性和偏见。同时,我们还开发了一种有效的随机变分推断算法,能够适应非常大的数据集,并在实验中证明了该模型相对于现有技术的优越性。
Aug, 2018
本文针对众包分类任务中工人分配问题,结合理论分析和实验模拟,比较了两种主动学习策略和均匀分配策略的性能,并推导了一个新的性能边界。实验结果表明理论结果在实践中得到了验证。
Oct, 2016
本文提出了一种基于特征学习和密度图的半监督人群计数方法,将未标注的图像用于训练通用的特征提取器并将其用于密度图回归,同时利用自训练方案来学习相关的二元分割任务,表明该方法优于现有的半监督人群计数方法和基线方法。
Jul, 2020