通过学习速度感知抽样使自监督学习对于偶发相关性具有鲁棒性

Nov, 2023

通过学习速度感知抽样使自监督学习对于偶发相关性具有鲁棒性

Making Self-supervised Learning Robust to Spurious Correlation via Learning-speed Aware Sampling

Weicheng Zhu, Sheng Liu, Carlos Fernandez-Granda, Narges Razavian

TL;DR我们研究了自监督学习 (Self-supervised learning) 在存在假相关性 (spurious correlations) 的情况下，说明了尽管存在其他重要的预测特征，通过捕捉与敏感属性相关的引人注目的特征子集，可以最小化自监督学习的训练损失。在这个问题上，我们通过观察自监督学习的学习动态发现，与这种相关性冲突的样本的学习速度较慢。基于这些发现，我们提出了一个学习速度感知的自监督学习 (LA-SSL) 方法，其中我们以与学习速度反相关的概率采样每个训练数据。我们在三个数据集上评估了 LA-SSL，这些数据集之间存在不同属性的假相关性，结果表明它提高了预训练表示在下游分类任务上的鲁棒性。

Abstract

self-supervised learning (SSL) has emerged as a powerful technique for learning rich representations from unlabeled data. The data representations are able to capture many underlying attributes of data, and be useful in downstream prediction tasks. In real-world settings, →

self-supervised learning spurious correlations learning dynamics la-ssl pretrained representations

发现论文，激发创造

自监督学习的逆向工程

本文深入分析了自监督学习的机制以及其对表示学习的影响，揭示了自监督学习在样本聚类方面的潜在驱动作用，同时证实了该方法所训练的表示与语义类别之间存在着密切的对齐关系，并且这种对齐关系随着训练和网络深度的加深而不断增强，这对于提高自监督学习方法的性能和效果具有重要的理论和实际意义。

May, 2023

观点可能是误导性的：通过特征空间增强改进的 SSL

我们探索了虚假特征对自监督学习的影响，表明常用的数据增强方法可能导致图像空间中不想要的不变性。基于这些发现，我们提出了一种方法（LateTVG），通过修剪编码器的后续层来在预训练过程中消除虚假信息，这种方法在几个基准测试中超过了基线方法，而不需要在自监督学习中使用组或标签信息。

May, 2024

自监督学习对数据集失衡更具鲁棒性

本文通过广泛的实验和理论分析，系统研究了在数据集不平衡的情况下自监督学习的表现，并通过半合成实验验证了 SSL 学习了与标签无关但可转移的特征，进而提出了一种新的加权正则化技术，显著提高了 SSL 表示的质量。

Oct, 2021

我们能否摆脱自我监督学习中的强数据增强？

自我监督学习（SSL）作为应对深度神经网络（DNNs）中有限标记数据挑战的一种有前途的解决方案，具有可扩展性潜力。本研究全面探索了 SSL 在各种数据增强中的行为，揭示了它们在塑造 SSL 模型性能和学习机制方面的关键作用。利用这些见解，我们提出了一种集成先验知识的新学习方法，旨在减少对大量数据增强的需求，从而增强学习表示的有效性。尤其值得注意的是，我们的发现表明，富含先验知识的 SSL 模型表现出较小的纹理偏差，对快捷方式和增强技术的依赖减弱，并且对自然和对抗性破坏具有改进的鲁棒性。这些发现不仅为 SSL 研究指明了新的方向，而且为提高 DNN 性能、减轻对大量数据增强的要求，从而增强可扩展性和实际问题解决能力方面铺平了道路。

Apr, 2024

基于超图的自监督学习与高效采样信号

SE-HSSL 是一个基于超图的自我监督学习框架，通过两个无需采样的目标和一个基于层次关系的对比目标来解决超图自我监督学习模型中的负样本采样偏差和计算效率问题。实验证明，与现有方法相比，SE-HSSL 在有效性和效率上都具有优势。

Apr, 2024

数据有效对比自监督学习：简单样本对学习最有帮助

该研究发现对于对比自监督 (SLL) 来说，那些与其他示例具有最相似增强的样例在学习表示方面贡献最大。此外，研究还表明，对正在进行的任务性能不会产生负面影响的情况下，可以安全地排除 CIFA100 和 STL10 分别的 20% 和 40% 示例。

Feb, 2023

自监督解决无监督异常检测的困境和机遇

自我监督学习在无监督异常检测中起到重要作用，对 SSL 策略的选择、超参数的调整、预处理任务和增强函数的设计以及基于密度估计的预训练模型的利用提出了新的发展和挑战。

Aug, 2023

自监督木马攻击揭秘

本研究探讨了自监督学习中的特洛伊攻击问题，并证明 SSL 受到特洛伊攻击的攻击效果与有监督学习相当。我们提出并评估了 CTRL，这是一种极其简单的自监督特洛伊攻击。结果证明，SSL 开启表示不变性有助于提高对抗强度，但同时这也使其对特洛伊攻击更加脆弱。

Oct, 2022

SSL 交互作用：扩充、归纳偏差，与泛化

本文对自我监督学习的理论与实践中被忽视的问题进行了分析，阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响，并为自我监督学习的从业者指出了一些有价值的见解。

Feb, 2023

连续自监督学习的挑战

本文研究了自我监督学习在连续流数据中的应用及其效率，提出了重放缓存与最小冗余样本的方法来增强学习。实验结果表明，这些方法可以有效提高表示学习的精度和鲁棒性，在非平稳的语义分布下也不容易出现灾难性遗忘。

Mar, 2022