清洗或标注：如何使用有限的数据采集预算

ACLOct, 2021

清洗或标注：如何使用有限的数据采集预算

Clean or Annotate: How to Spend a Limited Data Collection Budget

Derek Chen, Zhou Yu, Samuel R. Bowman

TL;DR本文提出了一种通过在注释过程中专门清理高概率错误样本的方法，以优化注释过程，并在三种模型变化和四个自然语言处理任务上进行的实验证明，该方法在分配相同的有限注释预算时优于聚合注释和高级去噪方法。

Abstract

crowdsourcing platforms are often used to collect datasets for training machine learning models, despite higher levels of inaccurate labeling compared to expert labeling. There are two common strategies to manage the impact of such noise. The first involves aggregating redundant annota

crowdsourcing platforms training machine learning models noisy labels annotation budget denoising algorithms

发现论文，激发创造

从含有噪声的带有单标签数据中学习

提出一种新的算法来联合建模标签和工作者质量，从带有噪声的众包数据中学习，可优化有限的标注资源，解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。

Dec, 2017

资源有限条件下的活动标签清洗，以提高数据集质量

本文提出一种基于数据驱动的主动标签清理方法来解决数据注释中的标签噪音问题，通过对样本进行优先级排序，提高数据集质量，具有较好的可行性和高效性。

Sep, 2021

在最小监督下从嘈杂大规模数据集中学习

本文介绍了一种使用大型包含嘈杂注释图像和少量清洁注释图像联合进行学习的方法，它由一个多任务网络组成，可以在清洁注释的帮助下减少大型数据集中的噪音，并在清洁数据集和带有降噪的完整数据集上进行微调学习，其结果比直接微调方法在 Open Image 数据集中的所有主要类别中均表现优异，特别适用于具有 20-80％注释噪音的大量类别。

Jan, 2017

用少量干净实例改进在嘈杂数据上训练的命名实体识别器

为了实现最先进的性能，我们提出了使用少量干净实例的指导来去噪 NER 数据的方法，通过训练鉴别模型并使用其输出来重新校准样本权重，能够改善性能并在众包和远程监督数据集上保持一致的结果。

Oct, 2023

众包深度学习

本文提出了一种基于 EM 算法和众包技术的神经网络训练模型，能够直接从多个标注者的嘈杂标签数据中进行有监督学习，并能够捕捉不同标注者的可靠性和偏见，最终在多个领域获得了新的最优结果。

Sep, 2017

目标检测中嘈杂预测标注的深度主动学习

减少标注数量并保持算法性能，通过主动学习算法在活动数据集中进行标签审核，可以提高模型性能，尤其在与不确定性查询策略相结合时。

Sep, 2023

通过生成增强改进众包学习

本文研究了如何使用数据增强处理众包数据中的稀疏性问题，特别地，我们提出了使用生成对抗网络来直接学习分类器，以解决存在于众包数据中的标注不足问题。在三个现实世界数据集上进行的广泛实验和与当前最先进的众包学习方法的比较证明了我们的数据增强框架的有效性，展示了我们算法在低成本众包中的潜力。

Jul, 2021

从随机到有知识的数据选择：基于多样性的方法优化人工标注和少样本学习

在自然语言处理中，获取用于监督学习的带注释数据是一个重要挑战。本文提出了一种自动和明智的数据选择架构，用于建立用于少样本学习的小型数据集，以解决众包标注的问题。

Jan, 2024

耦合混淆纠正：从带有稀疏注释的众包中学习

采用耦合混淆校正的方法对众包注释进行学习，通过双层优化，使模型能够更好地校正系统学习到的混淆矩阵，同时根据注释者群体的相似性进行聚类，从而更好地捕捉注释者的专业知识，特别是对于很少提供标签的注释者。此外，使用 Beta 分布来生成众包注释，以使合成注释与真实世界的注释更一致。大量实验表明，该方法明显优于现有的方法。

Dec, 2023

不同标注数量下的学习：从零到多标签

该研究论文通过在一小部分训练样例中为每个样例分配多个标签的方法，提出可通过利用不同标注数量的训练样例，设计高效的学习算法，提高自然语言处理的任务表现。

Sep, 2021