通过建立共同混淆模型学习众包数据

AAAIDec, 2020

通过建立共同混淆模型学习众包数据

Learning from Crowds by Modeling Common Confusions

Zhendong Chu, Jing Ma, Hongning Wang

TL;DR本文提出了一种新的众包模型，通过对每个实例和注释者的难度和能力进行分析，将注释噪声分解为公共噪声和个体噪声，并使用两种噪声自适应层实现端到端的学习解决方案来识别每个注释中的噪声来源。

Abstract

crowdsourcing provides a practical way to obtain large amounts of labeled data at a low cost. However, the annotation quality of annotators varies considerably, which imposes new challenges in learning a high-qua

crowdsourcing annotation quality noise adaptation end-to-end learning common and individual noise

发现论文，激发创造

从含有噪声的带有单标签数据中学习

提出一种新的算法来联合建模标签和工作者质量，从带有噪声的众包数据中学习，可优化有限的标注资源，解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。

Dec, 2017

耦合混淆纠正：从带有稀疏注释的众包中学习

采用耦合混淆校正的方法对众包注释进行学习，通过双层优化，使模型能够更好地校正系统学习到的混淆矩阵，同时根据注释者群体的相似性进行聚类，从而更好地捕捉注释者的专业知识，特别是对于很少提供标签的注释者。此外，使用 Beta 分布来生成众包注释，以使合成注释与真实世界的注释更一致。大量实验表明，该方法明显优于现有的方法。

Dec, 2023

众包深度学习

本文提出了一种基于 EM 算法和众包技术的神经网络训练模型，能够直接从多个标注者的嘈杂标签数据中进行有监督学习，并能够捕捉不同标注者的可靠性和偏见，最终在多个领域获得了新的最优结果。

Sep, 2017

通过生成增强改进众包学习

本文研究了如何使用数据增强处理众包数据中的稀疏性问题，特别地，我们提出了使用生成对抗网络来直接学习分类器，以解决存在于众包数据中的标注不足问题。在三个现实世界数据集上进行的广泛实验和与当前最先进的众包学习方法的比较证明了我们的数据增强框架的有效性，展示了我们算法在低成本众包中的潜力。

Jul, 2021

学习从众的标签选择方法

使用 Learning from Crowds 框架中的 Label Selection Layer 方法，通过选择性网络确定是否使用工人的标签进行训练，提供了一种有效的解决 Crowd annotations 中的标签噪声问题的方法。实验证明该方法在几乎所有的监督学习问题中都能获得与或优于当前最先进的方法相当的性能。

Aug, 2023

以领域自适应为基础的众包学习：一项针对命名实体识别的案例研究

本文提出了一种基于领域适应的、适用于众包的注释者感知特征学习模型，以减小众包注释的干扰，实现有效的监督式学习，将其应用于命名实体识别任务中，通过实验验证其在无或少量专家注释的情况下也可以实现极佳的效果，并取得了新的最高性能。

May, 2021

从人群的序列注释中学习模糊性

该研究提出了一种名为 LA-SCA 的框架，利用序列注释中的专家间的互相不一致性来探索不确定性和歧义，从而有效地保留混淆标签信息。通过建立层次贝叶斯模型来从人群中推断出真实数据并将相对可靠的标注者分组，计算可靠标注者之间的互相不一致性来获取标签混淆信息，并在成本敏感的序列标注中加以应用。实验结果表明，该框架在从人群中推断真实数据、预测未知序列和揭示具有相似可靠性的标注者的标注模式方面均表现出竞争力。

Jan, 2023

大规模真相推断：Bayesian 模型用于裁决高度冗余的众包注释

本文提出了一种基于贝叶斯图形模型的技术，用于有效地处理高度冗余注释数据，相比于多数真实推断模型，我们的方法得出了更优质的结果。

Feb, 2019

清洗或标注：如何使用有限的数据采集预算

本文提出了一种通过在注释过程中专门清理高概率错误样本的方法，以优化注释过程，并在三种模型变化和四个自然语言处理任务上进行的实验证明，该方法在分配相同的有限注释预算时优于聚合注释和高级去噪方法。

Oct, 2021

基于注释者和样本相关的转移矩阵迁移学习

该研究提出了一种使用深度神经网络建模实例和注释者依赖的标签噪声转移矩阵的方法，通过知识转移和校准来缓解挑战，确认了其在合成和真实世界的众包数据上的卓越性能。

Jun, 2023