不需要对比样本的自监督学习动态理解

Feb, 2021

不需要对比样本的自监督学习动态理解

Understanding self-supervised Learning Dynamics without Contrastive Pairs

Yuandong Tian, Xinlei Chen, Surya Ganguli

TL;DR在自监督学习中，我们提出一种名为 DirectPred 的新方法，该方法直接基于输入的统计信息而非梯度训练来设置线性预测器。在 ImageNet 上，该方法的表现与采用 BatchNorm 的更复杂的两层非线性预测器相当，且在 300 个 epoch 的训练中优于线性预测器 2.5％（在 60 个 epoch 中达到 5％）。同时，通过研究非对比性 SSL 在简单线性网络中的非线性学习动态，我们为这些方法的学习和避免表征崩溃提供了理论洞察力。

Abstract

While contrastive approaches of self-supervised learning (SSL) learn representations by minimizing the distance between two augmented views of the same data point (positive pairs) and maximizing views from different data points (negative pairs), recent \emph{non-contrastive} SSL (e.g.,

self-supervised learning non-contrastive ssl directpred linear predictor imagenet

发现论文，激发创造

通过非对比自我监督实现对表征学习的揭秘

我们的研究表明，非对比自监督学习方法可以通过学习理想的投影矩阵来降低下游任务的样本复杂度，并且我们还设计了一个更简单、更高效的算法 DirectCopy，其可以成功地应用于 STL-10、CIFAR-10、CIFAR-100 和 ImageNet 数据集，表现良好。

Oct, 2021

非对比性孪生表示学习中的崩溃理解

通过对 SimSiam 两个非对比损失方法进行实证分析，研究发现 SimSiam 对数据集规模和模型大小非常敏感，并提出用崩溃度量来衡量降维崩溃的程度，进而预测下游任务性能。同时，采用持续学习模式作为规范器可以预防模型的崩溃，并提出一种持续和多轮训练的混合方式，该方式能够在 ImageNet 上使用 ResNet-18 显著提高线性探针精度。

Sep, 2022

通过预测网络和停梯度方法，实现 BYOL/SimSiam 的隐式方差正则化

本论文研究了自监督学习的非对比方法，通过构建 DirectPred 理论框架，分析了线性网络的表示学习动态，并通过共轭积的方法提供了一个显式的方差规则机制，提出了一种新的各向同性损失函数，并在 CIFAR-10 和 STL-10 数据集上证明了理论发现的正确性。

Dec, 2022

大多数自监督学习方法背后的共同稳定性机制

通过解释对比技术如 SimCLR 和非对比技术如 BYOL、SWAV、SimSiam、Barlow Twins 和 DINO 的工作机制，提供了稳定机制的框架，论证了这些不同的自监督学习技术在隐式上优化类似的目标函数，同时提供数学和经验数据支持。

Feb, 2024

自监督模型的表示学习动态

自监督学习是从无标签数据中学习表示的重要范例，本文通过研究 SSL 模型的学习动态，特别是通过最小化对比损失和非对比损失获得表示，提出了施加权重正交性约束的 SSL 目标函数，推导出了在 Grassmann 流形上使用梯度下降训练的 SSL 模型的精确（与网络宽度无关）学习动态，证明了无限宽度逼近的 SSL 模型与监督模型的神经切向核逼近有明显偏差，数值实验证明了理论发现的正确性，并讨论了所呈现结果为对比和非对比 SSL 的进一步理论分析提供了框架。

Sep, 2023

对比自监督学习和非对比自监督学习恢复全局和局部谱嵌入方法

本文提出了一种基于谱流形学的统一框架，以解决自监督学习方法的局限性并提供有意义的表示学习方法，通过将 VICReg，SimCLR 和 BarlowTwins 等自监督学习方法与谱方法相对应，得到了闭合形式的最佳表示以及线性区间内的网络最佳参数，并揭示了对训练中使用的成对关系以及下游任务性能的影响，以及对于两种谱嵌入方法之间的第一种理论桥梁的暗示。

May, 2022

无对照相似度学习方法：仅需正例

本文提出了一种基于 BYOL 和 Barlow Twins 的非对比 SSL 方法，其不需要负样本并专注于匹配正样本，该方法在时间序列数据的相似性问题及时序表示学习中表现更好（ARI = 0.49）并证明了其实用性。

Sep, 2022

无对比自监督学习中预测头机制

本文介绍了一种自监督学习方法，其中相称损失中的负项可以通过添加 prediction head 被消除，理论上和实验上证明了这种方法能够避免维度崩溃现象，并且通过正常的梯度下降可以学习有效表示来替代只学习强特征的偏见。

May, 2022

双重深度网络的自监督学习理解

提出了一种新的理论框架来理解对比自监督学习方法，该方法采用双重 ReLU 网络（例如 SimCLR）。我们证明了每个 SGD 更新中的权重是由协方差算子更新的，并进一步说明了协方差算子的作用和应用。通过建立层次潜变量树模型并证明深度 ReLU 网络的隐藏层学习了该模型的潜变量，我们总结了通过对比自监督学习的初始随机选择法放大而形成的层次化特征。

Oct, 2020

提高自监督学习的算法、模型和数据效率

通过分析梯度公式，我们对基于非参数实例区分的单分支自监督学习方法进行了改进，提出了一种新的自蒸馏损失以减小实例区分中的更新问题，并且在训练开销和性能方面与不同方法进行了系统比较，在不同规模的数据和不同骨干网络下，我们的方法在大大降低开销的同时，比各种基准方法表现更好，尤其在有限数量的数据和小型模型的情况下效果显著。

Apr, 2024