自监督学习对数据集失衡更具鲁棒性

Oct, 2021

自监督学习对数据集失衡更具鲁棒性

Self-supervised Learning is More Robust to Dataset Imbalance

Hong Liu, Jeff Z. HaoChen, Adrien Gaidon, Tengyu Ma

TL;DR本文通过广泛的实验和理论分析，系统研究了在数据集不平衡的情况下自监督学习的表现，并通过半合成实验验证了 SSL 学习了与标签无关但可转移的特征，进而提出了一种新的加权正则化技术，显著提高了 SSL 表示的质量。

Abstract

self-supervised learning (SSL) is a scalable way to learn general visual representations since it learns without labels. However, large-scale unlabeled datasets in the wild often have long-tailed label distributions, where we know little about the behavior of SSL. In this work, we syst

发现论文，激发创造

自监督何时能够提高小样本学习？

通过实验和分析，研究了自监督学习对于小样本学习的有效性，证明自监督学习可以降低元学习中相对误差率4%-27%，对元学习器有更多的改进，尤其是在训练集更小或任务更具挑战性的情况下。但在元学习和自监督学习使用的图像分布不同时，自监督学习有可能会降低元学习器的表现。最后，作者提出一种方法，可以从大量的通用未标记图片中自动选择适合特定数据集的自监督学习样本，以进一步提高元学习器的性能。

Oct, 2019

类别不平衡的半监督学习

本文提出一种称为类别不平衡半监督学习（CISSL）的任务，介绍了现有的类别不平衡SSL方法，并提出了一种所谓的压抑一致性损失（SCL）的正则化方法，该方法对于类别不平衡情况具有鲁棒性，在CISSL环境下比传统方法表现更好。

Feb, 2020

重新思考标签的价值，以改善类别不平衡学习

本研究系统研究了类别不平衡的学习及其对标签使用的影响，理论和实证表明，类别不平衡的标签可以通过半监督或自监督方法来获得显著的改进，但是在训练分类器时，先经过自监督的预训练会更优秀。

Jun, 2020

面向长尾视觉识别的平衡对比学习

本研究提出一种适用于长尾数据的平衡对比学习方法(BCL)，通过均衡梯度贡献和多类别出现于每次 mini-batch 的方式，使分类器实现更好的优化，并在多个长尾数据集上超过了现有竞争对手(ClFAR-10-LT,CIFAR-100-LT, ImageNet-LT,以及iNaturalist2018)

Jul, 2022

一种极为简单的半监督不平衡学习基线模型

SimiS是一种简单而有效的SSL算法，通过用伪标签补充数据以解决类别不平衡问题，在CIFAR100-LT，FOOD101-LT和ImageNet127数据集上分别相对现有方法提高了12.8％，13.6％和16.7％的表现。

Nov, 2022

自我监督的表示学习方法能否经受分布变化和损坏？

自监督学习在计算机视觉中的鲁棒性研究调查了分布变化和图像损坏对学习表示的影响，发现较高级别的变化和损坏显著降低了学习表示的鲁棒性。研究强调了鲁棒性对自监督学习方法的性能和应用的关键影响，并强调了需要寻找有效策略以减轻其不利影响的重要性。

Jul, 2023

大多数自监督学习方法背后的共同稳定性机制

通过解释对比技术如SimCLR和非对比技术如BYOL、SWAV、SimSiam、Barlow Twins和DINO的工作机制，提供了稳定机制的框架，论证了这些不同的自监督学习技术在隐式上优化类似的目标函数，同时提供数学和经验数据支持。

Feb, 2024

观点可能是误导性的: 通过特征空间增强改进的SSL

我们探索了虚假特征对自监督学习的影响，表明常用的数据增强方法可能导致图像空间中不想要的不变性。基于这些发现，我们提出了一种方法（LateTVG），通过修剪编码器的后续层来在预训练过程中消除虚假信息，这种方法在几个基准测试中超过了基线方法，而不需要在自监督学习中使用组或标签信息。

May, 2024

深入研究基于自监督预训练的图像分类性能评估

自我监督学习方法是一种机器学习方法，通过解决预设任务，通过数据本身提供监督，从而避免了对外部标签的需求，并能够有效利用大量廉价无标签数据进行模型训练，从而显著降低了昂贵或无法获取标签的模型训练成本。本研究主要针对自我监督学习方法中的评估协议进行研究，评估表征质量，并预测不同类型数据集上不同下游任务的性能表现，发现基于领域内的线性/kNN探测协议是最好的普适性预测器，进一步研究了批归一化的重要性以及对不同类型数据集领域转移的鲁棒性的评估，同时对区分性和生成性自我监督方法之间的关系进行了挑战，并发现它们之间的性能差异大部分可以通过模型的改变来解释。

Jul, 2024

自监督表示学习的可辨识性

自监督学习与监督学习之间存在显著差距，本文分析了自监督学习方法中特征学习存在的拥挤问题，并提出了动态语义调整器(Dynamic Semantic Adjuster)作为解决方案，通过在特征空间中对样本进行聚合和分离，最终缩小了自监督学习与监督学习之间的性能差距。

Jul, 2024