自监督学习中的损失函数模型

ICLROct, 2022

What shapes the loss landscape of self-supervised learning?

Liu Ziyin, Ekdeep Singh Lubana, Masahito Ueda, Hidenori Tanaka

TL;DR通过对自监督学习损失地景的理论推导和分析，揭示了其维度崩溃的原因和机制，探讨了正规化和偏差的影响，并阐明了维度崩溃的益处及其对于自监督学习数据失衡鲁棒性的影响。

Abstract

Prevention of complete and dimensional collapse of representations has recently become a design principle for self-supervised learning (SSL). However, questions remain in our theoretical understanding: When do th

self-supervised learning dimensional collapse normalization bias loss landscapes

发现论文，激发创造

大多数自监督学习方法背后的共同稳定性机制

通过解释对比技术如 SimCLR 和非对比技术如 BYOL、SWAV、SimSiam、Barlow Twins 和 DINO 的工作机制，提供了稳定机制的框架，论证了这些不同的自监督学习技术在隐式上优化类似的目标函数，同时提供数学和经验数据支持。

Feb, 2024

失败模式的三重困境及可能的出路

我们提出了一种针对基于聚类的自主学习（SSL）的全新客观函数，旨在解决表示坍塌、聚类坍塌和集群分配排列不变性等三种失败模式的问题。我们的目标函数包含三个关键组成部分：（i）惩罚表示坍塌的生成项，（ii）促进对数据增强的不变性，从而解决标签排列问题，以及（ii）惩罚聚类坍塌的一致性项。此外，我们的目标函数具有两个值得注意的优点：首先，从贝叶斯的角度来看，它可视为数据对数似然的下界。其次，它可以训练标准的主干架构，无需使用诸如停止梯度、动量编码器或专门的聚类层等非对称元素。通过其简洁性和理论基础，我们提出的目标函数非常适合优化。在玩具数据和实际数据的实验中证明了其有效性。

Sep, 2023

自监督对比学习的几何理解

本文研究了自监督学习中编码器和映射器的关系，发现数据增强策略的增加会导致映射器变得更加不变，从而学习将数据投影到低维空间中，具有理论和实验结果的几何学解释。

May, 2022

自监督模型的表示学习动态

自监督学习是从无标签数据中学习表示的重要范例，本文通过研究 SSL 模型的学习动态，特别是通过最小化对比损失和非对比损失获得表示，提出了施加权重正交性约束的 SSL 目标函数，推导出了在 Grassmann 流形上使用梯度下降训练的 SSL 模型的精确（与网络宽度无关）学习动态，证明了无限宽度逼近的 SSL 模型与监督模型的神经切向核逼近有明显偏差，数值实验证明了理论发现的正确性，并讨论了所呈现结果为对比和非对比 SSL 的进一步理论分析提供了框架。

Sep, 2023

LDReg: 本地维度规范化自监督学习

通过局部尺度正则化方法（LDReg），本文提出了解决自监督学习中维度塌缩问题的方法，并通过一系列实验证明了 LDReg 可以提高 SSL 的表示质量，同时能够在局部和全局级别正则化维度。

Jan, 2024

可扩展的图自监督学习

通过采样节点或维度，可以降低损失计算成本，并且不会降低下游性能。

Feb, 2024

SSL 交互作用：扩充、归纳偏差，与泛化

本文对自我监督学习的理论与实践中被忽视的问题进行了分析，阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响，并为自我监督学习的从业者指出了一些有价值的见解。

Feb, 2023

自监督学习中投影头的稀疏性研究

自监督学习（SSL）是从无标签数据中提取有价值表示的一种有前途的方法，其中对比学习是一种成功的 SSL 方法，其目标是将正例拉近而将负例推开。通过实证分析和理论探究，我们揭示了投影头的内部机制及其与维度崩溃现象的关系，我们的研究结果表明，投影头通过在投影子空间中进行对比损失来提高表示的质量。因此，我们提出了一种假设，即在最小化一批数据的对比损失时，仅有部分特征是必要的。理论分析进一步表明，稀疏的投影头可以增强泛化能力，这导致我们引入了 SparseHead - 一种有效约束投影头稀疏性的正则化项，并可以无缝集成到任何自监督学习（SSL）方法中。我们的实验结果验证了 SparseHead 的有效性，证明了其改善现有对比方法性能的能力。

Jul, 2023

自监督学习的逆向工程

本文深入分析了自监督学习的机制以及其对表示学习的影响，揭示了自监督学习在样本聚类方面的潜在驱动作用，同时证实了该方法所训练的表示与语义类别之间存在着密切的对齐关系，并且这种对齐关系随着训练和网络深度的加深而不断增强，这对于提高自监督学习方法的性能和效果具有重要的理论和实际意义。

May, 2023

神经网络损失函数的大尺度结构

本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性，其中高维度发挥了关键作用，通过将损失函数的空间看作是一系列高维楔形图的集合，揭示了优化算法收敛过程的内在规律，最终还研究了一些深度网络的集成技术。

Jun, 2019