奥卡姆剃刀原则在自监督学习中的应用：什么是足够的学习良好的特征表示？

Jun, 2024

奥卡姆剃刀原则在自监督学习中的应用：什么是足够的学习良好的特征表示？

Occam's Razor for Self Supervised Learning: What is Sufficient to Learn Good Representations?

Mark Ibrahim, David Klindt, Randall Balestriero

TL;DR深度学习常被描述为数据 - 架构 - 损失的三位一体。然而，最近的自监督学习 (SSL) 解决方案引入了许多其他设计选择，如投影网络、正向视图或师生网络。本研究的发现是，对于多达几十万个样本的预训练数据集，SSL 引入的额外设计对所学表示的质量没有贡献。这一发现不仅为现有的理论研究提供了正当性，而且简化了在许多小型和中型场景中实施 SSL 的从业者的路径。我们的发现回答了一个长期存在的问题：在 SSL 中遇到的对训练设置和超参数的敏感性来自其设计，而不是缺乏监督指导。

Abstract

deep learning is often depicted as a trio of data-architecture-loss. Yet, recent self supervised learning (SSL) solutions have introduced numerous additional design choices, e.g., a projector network, positive vi

deep learning self supervised learning pretraining datasets theoretical studies ssl deployment

发现论文，激发创造

自监督对比学习的几何理解

本文研究了自监督学习中编码器和映射器的关系，发现数据增强策略的增加会导致映射器变得更加不变，从而学习将数据投影到低维空间中，具有理论和实验结果的几何学解释。

May, 2022

扩展或缩小表示，控制预训练偏差轻松实现高效迁移学习技术

本文提出改变自监督学习模型中主干神经网络的最后一个块的维度，是解决预训练偏差问题的一种简单有效的方法，并可以提高自监督预训练模型和有监督预训练模型的迁移学习性能。

Apr, 2023

SSL 交互作用：扩充、归纳偏差，与泛化

本文对自我监督学习的理论与实践中被忽视的问题进行了分析，阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响，并为自我监督学习的从业者指出了一些有价值的见解。

Feb, 2023

我们能否摆脱自我监督学习中的强数据增强？

自我监督学习（SSL）作为应对深度神经网络（DNNs）中有限标记数据挑战的一种有前途的解决方案，具有可扩展性潜力。本研究全面探索了 SSL 在各种数据增强中的行为，揭示了它们在塑造 SSL 模型性能和学习机制方面的关键作用。利用这些见解，我们提出了一种集成先验知识的新学习方法，旨在减少对大量数据增强的需求，从而增强学习表示的有效性。尤其值得注意的是，我们的发现表明，富含先验知识的 SSL 模型表现出较小的纹理偏差，对快捷方式和增强技术的依赖减弱，并且对自然和对抗性破坏具有改进的鲁棒性。这些发现不仅为 SSL 研究指明了新的方向，而且为提高 DNN 性能、减轻对大量数据增强的要求，从而增强可扩展性和实际问题解决能力方面铺平了道路。

Apr, 2024

自监督学习的逆向工程

本文深入分析了自监督学习的机制以及其对表示学习的影响，揭示了自监督学习在样本聚类方面的潜在驱动作用，同时证实了该方法所训练的表示与语义类别之间存在着密切的对齐关系，并且这种对齐关系随着训练和网络深度的加深而不断增强，这对于提高自监督学习方法的性能和效果具有重要的理论和实际意义。

May, 2023

低数据条件下的自监督视觉学习：一项比较评估

在相对有限 / 受约束的数据集中，通过比较实验评估了现代视觉自监督学习方法的有效性，发现针对特定领域的下游任务，在领域内的低数据量自监督预训练优于在通用数据集上进行大规模预训练，为该领域中各类自监督学习方法的性能提供了有价值的见解，并提出了直接的未来研究方向。

Apr, 2024

自我监督学习中摆脱手工制作的架构：一个网络并不能统治所有

大规模研究表明，在自监督学习中，网络架构起着重要的作用，因此作者提议在 SSL 环境中学习网络的权重和体系结构，从而提高性能并超越手工设计的体系结构。

Mar, 2022

自监督学习对数据集失衡更具鲁棒性

本文通过广泛的实验和理论分析，系统研究了在数据集不平衡的情况下自监督学习的表现，并通过半合成实验验证了 SSL 学习了与标签无关但可转移的特征，进而提出了一种新的加权正则化技术，显著提高了 SSL 表示的质量。

Oct, 2021

数据有效对比自监督学习：简单样本对学习最有帮助

该研究发现对于对比自监督 (SLL) 来说，那些与其他示例具有最相似增强的样例在学习表示方面贡献最大。此外，研究还表明，对正在进行的任务性能不会产生负面影响的情况下，可以安全地排除 CIFA100 和 STL10 分别的 20% 和 40% 示例。

Feb, 2023

利用自监督学习提升模型公平性

自我监督学习对模型的公平性具有显著影响，通过引入公平性评估框架，该研究系统地比较了数百个自我监督和精调模型在性能和公平性方面的差异，并证明了自我监督学习可以在最小损失性能的情况下显著提高模型的公平性。

Jun, 2024