从自然不平衡伪标签中进行无偏学习

CVPRJan, 2022

从自然不平衡伪标签中进行无偏学习

Debiased Learning from Naturally Imbalanced Pseudo-Labels

Xudong Wang, Zhirong Wu, Long Lian, Stella X. Yu

TL;DR本文提出一种基于对抗性反事实推理和自适应边界的偏差学习方法，旨在解决伪标签自然不平衡的分类问题。通过对大量实验数据的验证，实现了对 ImageNet-1K 进行半监督和零样本学习的显着精度提升。

Abstract

pseudo-labels are confident predictions made on unlabeled target data by a classifier trained on labeled source data. They are widely used for adapting a model to unlabeled data, e.g., in a semi-supervised learning

pseudo-labels semi-supervised learning imbalanced classification debiased learning adaptive margins

发现论文，激发创造

深度半监督学习中的伪标记和确认偏差

提出基于伪标签生成的半监督图像分类方法，利用 mixup 增广和每个 mini-batch 至少有数量的有标注样本的限制解决了伪标签带来的过度拟合问题，并在多个数据集上取得了最新的结果。

Aug, 2019

无法处理（肮脏的）真相：以数据为中心的洞察提高了伪标注

伪标记是一种使用少量标记样本来利用无标记数据的常用半监督学习技术。本研究提出了一种名为 DIPS 的数据特征化和选择框架，通过对学习动态的分析来改善伪标记方法，提高标记数据的质量，并展示了其在各种真实世界的表格和图像数据集上的应用和影响。综上所述，我们强调了在真实环境中数据为中心的伪标记方法的显著优势。

Jun, 2024

具有偏差自适应分类器的不平衡半监督学习

本文提出了一种基于偏差自适应分类器的伪标签半监督学习方法，通过引入一个偏差吸引器来自动补偿类别不平衡带来的偏差，从而提高了伪标签方法在类别不平衡情况下的性能。实验证明，该方法优于现有的基准方法。

Jul, 2022

课程标记：重新审视半监督学习中的伪标记

本文重新审视了伪标记的概念，提出了一种基于半监督学习的方法，通过将伪标记应用于无标签集中的样本，并利用已训练好的模型标记这些样本，然后迭代重复此过程来训练模型。本文通过实验证明，伪标记方法可以取得与现有最先进方法相媲美甚至更好的结果，并且更能抵御未知分布样本。作者指出采用学习课程原理以及在每个自我训练周期前重启模型参数是实现这一点的两个关键因素。在 CIFAR-10 数据集上，本文仅使用了 4,000 个标记样本，达到了 94.91% 的准确率，在 Imagenet-ILSVRC 数据集上，本文仅使用了 10％的标记样本，达到了 68.87％的 top-1 的准确率。

Jan, 2020

无监督学习伪属性去偏表示

该论文提出了一种简单且有效的无监督去偏差技术，该方法利用聚类算法在特征嵌入空间识别伪属性，然后采用一种新颖的聚类加权重新调整方案来学习去偏置表示，以防止少数群体被忽视并达到最坏情况下的概括，实验证明其在多个标准基准测试数据集上具有出色的表现，甚至达到了有监督对照组的竞争精度。

Aug, 2021

伪标记中选择性的无监督多源自由领域自适应的优势

该研究提出了一种利用信息论界限和特征对齐技术，将目标数据划分为伪标记子集和无标记子集以实现平衡的无监督域自适应方法，取得了比现有方法更好的性能表现。

Feb, 2022

重新思考标签的价值，以改善类别不平衡学习

本研究系统研究了类别不平衡的学习及其对标签使用的影响，理论和实证表明，类别不平衡的标签可以通过半监督或自监督方法来获得显著的改进，但是在训练分类器时，先经过自监督的预训练会更优秀。

Jun, 2020

无监督域自适应的伪标注课程

通过基于密度的聚类算法提出伪标签课程表，通过高密度值子集进行早期训练，在后期使用低密度值的数据子集，进而改进网络生成伪标签的能力，提高模型的训练效果并实现最先进的性能

Aug, 2019

使用伪标签进行域自适应

无监督领域适应的研究中，通过使用预训练网络进行多阶段伪标签优化程序，解决了无标签目标数据中的类别错位问题，证明了该简单方法在多个数据集上比复杂的最先进技术更有效。

Feb, 2024

为何基于伪标签的半监督学习算法如此有效？

该研究分析了基于伪标签的半监督学习算法之所以有效的理论原因，并比较了有标记数据与有适当初始模型的无标记数据两种情况下训练的模型的泛化误差，证明了在足够数量的无标记数据的情况下，基于伪标签的半监督学习算法可以收敛到最优误差上限，并给出了达到线性收敛率的采样复杂度下限。

Nov, 2022