在少数据情况下，添加表面上无用的标签有助于 improving

ICMLJul, 2020

在少数据情况下，添加表面上无用的标签有助于 improving

Adding Seemingly Uninformative Labels Helps in Low Data Regimes

Christos Matsoukas, Albert Bou I Hernandez, Yue Liu, Karin Dembrower, Gisele Miranda...

TL;DR本文研究表明，使用大规模数据集训练的网络之所以具有良好的泛化能力，并非仅仅因为有众多的训练示例，还因为类别的多样性鼓励了富有表现力特征的学习。当数据匮乏时，使用额外的标签进行学习是否仍然具有优势？本文针对乳腺 X 光图像中的肿瘤分割任务展开研究。我们发现，在低数据设置下，通过将专家注释与非专家注释者提供的看似无关乎的标签相结合，将任务变为多分类问题，可以提高性能。我们揭示了这些增益在专家数据较少时增加的情况，并通过进一步的研究揭示了几个有趣的属性。我们在 CSAW-S 上证明了我们的发现，并在两个公共数据集上进行了确认。

Abstract

Evidence suggests that networks trained on large datasets generalize well not solely because of the numerous training examples, but also class diversity which encourages learning of enriched features. This raises

large datasets generalization class diversity low-data settings tumor segmentation

发现论文，激发创造

无标签数据提高对抗鲁棒性

通过理论和实验，我们证明了半监督学习可以显著提高对抗性鲁棒性，实验结果表明在 CIFAR-10 上使用 500k 未标记图像，使用自我训练方法可以超过最先进的对抗性鲁棒的准确度。在 SVHN 上，使用模型自身的额外的训练集可以提高 4 至 10 个百分点，与使用额外标签的提高量相差不大。

May, 2019

训练，学习，扩展，重复

这篇论文提出了一种递归式的训练策略，在使用非常少的带有像素级注释的训练样本的情况下，通过使用较便宜的图像级标注扩展这个小的训练样本集，完成语义分割的任务，进而应用于颅内出血的分割。

Mar, 2020

标签是否需要以提高对抗性鲁棒性？

研究表明，使用未标记的数据进行训练可以作为对于耐受对抗攻击模型的有竞争力的替代方法，具体而言是在简单的统计情况下，学习对抗鲁棒模型的样本复杂度与完全受监督的情况一致。此外，使用未标记数据的无监督对抗训练方法可以在 CIFAR-10 这样的标准数据集上，使得鲁棒准确性比仅仅使用 4K 监督样例有 21.7% 的提升，并且可以捕捉到相同数量标记样例的改进量中超过 95% 的部分。最后，使用来自未筛选的 8000 万张小图片数据集的额外未标记数据，在 CIFAR-10 上击败了当前已知最强的攻击，展示了我们的发现也适用于未筛选的现实情况，从而为提高对抗训练打开了新的途径。

May, 2019

通过多样的监督解锁小数据的全部潜力

本研究探讨了在小数据情况下的长尾识别问题，提出了一种以自然场景解析数据集 ADE20K 为基础的模型增强方法，并划分不同分布的头尾目标类别进行表示学习和评估，其中进一步围绕 “稀有类别” 和 “训练图像匮乏” 构建了两个新的研究方向，实验表明通过密集标注少量图像即可在一定程度上缓解小数据约束。

Nov, 2019

稀疏且噪音标注下的主动学习标签鲁棒分配

利用未标记的样本空间，我们提出了两种新的注释统一算法，旨在解决主动学习中存在的错误数据标注问题，并通过在四个公共数据集上的实验证明该方法在评估标注者可靠性和分配实际标签方面的鲁棒性和优越性，超过了现有算法和简单的多数投票。

Jul, 2023

对抗噪声标签的稳健特征学习

This paper proposes a method to improve the robustness of deep learning models in the presence of noisy labels by utilizing unsupervised learning and cluster regularization.

Jul, 2023

深度学习对大规模标签噪声具有强韧性

本研究证明，基于深度神经网络的图像分类模型可以从含有数量远多于准确标签的训练数据中进行有效学习，表现出良好的测试性能提升，这种学习需要增加数据集大小作为代价。

May, 2017

弱监督深度学习在胸部 CT 分类中的性能限制是什么？

通过分析弱监督学习在医学图像领域的限制以及约束条件对疾病分类性能的影响，本研究揭示了模型对噪声数据的容忍度、训练数据量的影响以及二元和多标签分类之间的性能差异。结果表明，模型可以在添加 10% 标签错误之前保持疾病分类的性能，随着训练数据量的增加，各种疾病类别的分类性能稳步提升，但在 75% 训练数据量时性能趋于平稳，同时二元模型在每个疾病类别上优于多标签模型，然而这些解释可能具有误导性，因为二元模型受到共同出现的疾病的影响，并未学习到图像中疾病的具体特征。综上所述，本研究有助于医学图像领域理解弱监督学习和噪声标签的优势和风险，同时也表明了构建多样化的大规模数据集以及开发可解释和负责任的人工智能的需求。

Feb, 2024

专家一致性存在下的有选择标签学习

本论文探讨选择性标签下算法辅助决策学习的问题，介绍为什么标准方法无法有效处理选择性标签的普遍选择偏误问题，提出了一种数据增强方法，既可以利用专家一致性减轻选择性标签导致的部分盲目性，也可以经验验证学习是否会导致易受系统性歧视的不可靠模型。

Jul, 2018

临床报告标注的收益递减

本文揭示了一种有些反直觉的结论，即相对于非医学领域的 NLP 问题，医学 NLP 模型在小量标记数据的训练下表现出更好的效果，并通过使用最大的公共胸透放射学报告数据集之一的两个固定测试集，在异常分类任务上显示出训练数据大小对模型性能的影响。

Oct, 2020