通过生成增强改进众包学习

KDDJul, 2021

Improve Learning from Crowds via Generative Augmentation

Zhendong Chu, Hongning Wang

TL;DR本文研究了如何使用数据增强处理众包数据中的稀疏性问题，特别地，我们提出了使用生成对抗网络来直接学习分类器，以解决存在于众包数据中的标注不足问题。在三个现实世界数据集上进行的广泛实验和与当前最先进的众包学习方法的比较证明了我们的数据增强框架的有效性，展示了我们算法在低成本众包中的潜力。

Abstract

crowdsourcing provides an efficient label collection schema for supervised machine learning. However, to control annotation cost, each instance in the crowdsourced data is typically annotated by a small number of annotators. This creates a →

crowdsourcing sparsity data augmentation generative adversarial networks low-budget crowdsourcing

发现论文，激发创造

耦合混淆纠正：从带有稀疏注释的众包中学习

采用耦合混淆校正的方法对众包注释进行学习，通过双层优化，使模型能够更好地校正系统学习到的混淆矩阵，同时根据注释者群体的相似性进行聚类，从而更好地捕捉注释者的专业知识，特别是对于很少提供标签的注释者。此外，使用 Beta 分布来生成众包注释，以使合成注释与真实世界的注释更一致。大量实验表明，该方法明显优于现有的方法。

Dec, 2023

众包深度学习

本文提出了一种基于 EM 算法和众包技术的神经网络训练模型，能够直接从多个标注者的嘈杂标签数据中进行有监督学习，并能够捕捉不同标注者的可靠性和偏见，最终在多个领域获得了新的最优结果。

Sep, 2017

带有约束条件的贝叶斯众包

本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法，该算法基于变分推断，可以比无监督众包分类更有效地对人工注释信息进行聚合，该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。

Dec, 2020

通过建立共同混淆模型学习众包数据

本文提出了一种新的众包模型，通过对每个实例和注释者的难度和能力进行分析，将注释噪声分解为公共噪声和个体噪声，并使用两种噪声自适应层实现端到端的学习解决方案来识别每个注释中的噪声来源。

Dec, 2020

从含有噪声的带有单标签数据中学习

提出一种新的算法来联合建模标签和工作者质量，从带有噪声的众包数据中学习，可优化有限的标注资源，解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。

Dec, 2017

GAN 增强：使用生成对抗网络进行训练数据增强

本文使用生成式对抗网络（GAN）生成的合成数据来增加医学成像训练数据集的样本数量，从而提高监督式机器学习算法对图像分割任务的性能。

Oct, 2018

学习从众的标签选择方法

使用 Learning from Crowds 框架中的 Label Selection Layer 方法，通过选择性网络确定是否使用工人的标签进行训练，提供了一种有效的解决 Crowd annotations 中的标签噪声问题的方法。实验证明该方法在几乎所有的监督学习问题中都能获得与或优于当前最先进的方法相当的性能。

Aug, 2023

大规模真相推断：Bayesian 模型用于裁决高度冗余的众包注释

本文提出了一种基于贝叶斯图形模型的技术，用于有效地处理高度冗余注释数据，相比于多数真实推断模型，我们的方法得出了更优质的结果。

Feb, 2019

贝叶斯数据增强方法用于深度模型学习

提出了一种基于贝叶斯公式，利用广义蒙特卡洛期望最大化算法和生成对抗网络的方法，能更好地生成新的标注训练样本，并在 MNIST，CIFAR-10 和 CIFAR-100 的数据集中取得了优于现有数据增强方法和 GAN 模型的分类结果。

Oct, 2017

半监督和任务驱动的数据增强

本文技术为使用生成模型并结合任务驱动数据增强方法，显式地建模变形场和强化蒙版，用于为监督型深度学习模型训练新的 MRI 心脏分割训练数据，实验结果表明该方法在小样本数据的分割任务中表现优异。

Feb, 2019