自监督学习的结构冗余的低秩逼近

Feb, 2024

自监督学习的结构冗余的低秩逼近

Low-Rank Approximation of Structural Redundancy for Self-Supervised Learning

Kang Du, Yu Xiang

TL;DR通过无限数量的标记样本，本研究探究重建型 SSL 的数据生成机制以揭示其有效性，提出了完美线性近似的充分必要条件，并通过低秩因子分解来度量冗余分量的近似质量，并结合过量风险分析，在线性回归和岭回归设置下验证了 SSL 与有监督学习的比较。

Abstract

We study the data-generating mechanism for reconstructive ssl to shed light on its effectiveness. With an infinite amount of labeled samples, we provide a sufficient and necessary condition for perfect linear approximat

reconstructive ssl linear approximation low-rank factorization excess risk analysis supervised learning

发现论文，激发创造

通过风险分解评估自监督学习

通过风险拆分的方法对自监督学习中的四个误差组件进行了有效估计，研究了 30 种不同的自监督学习设计选择，并给出了改进结果的可行方案。

Feb, 2023

自监督学习的逆向工程

本文深入分析了自监督学习的机制以及其对表示学习的影响，揭示了自监督学习在样本聚类方面的潜在驱动作用，同时证实了该方法所训练的表示与语义类别之间存在着密切的对齐关系，并且这种对齐关系随着训练和网络深度的加深而不断增强，这对于提高自监督学习方法的性能和效果具有重要的理论和实际意义。

May, 2023

巴洛双胞胎：基于冗余减少的自监督学习

提出了一种名为 Barlow Twins 的自监督学习方法，通过在两个相同的网络中输入扭曲版本的样本并测量它们输出的相关性矩阵，使嵌入向量在保持相似性的同时最小化它们之间的冗余。该方法在低数据范围内的半监督分类上优于以前的方法，并对于使用线性分类器头部的 ImageNet 分类和分类与目标检测的转移任务与当前最先进的方法相媲美。

Mar, 2021

自监督学习对数据集失衡更具鲁棒性

本文通过广泛的实验和理论分析，系统研究了在数据集不平衡的情况下自监督学习的表现，并通过半合成实验验证了 SSL 学习了与标签无关但可转移的特征，进而提出了一种新的加权正则化技术，显著提高了 SSL 表示的质量。

Oct, 2021

数据有效对比自监督学习：简单样本对学习最有帮助

该研究发现对于对比自监督 (SLL) 来说，那些与其他示例具有最相似增强的样例在学习表示方面贡献最大。此外，研究还表明，对正在进行的任务性能不会产生负面影响的情况下，可以安全地排除 CIFA100 和 STL10 分别的 20% 和 40% 示例。

Feb, 2023

使用弱数据增强进行关系自监督学习的 ReSSL 算法

本文提出一种新的自监督学习方法 —— 关系自监督学习 (ReSSL) 框架，通过建模不同实例之间的关系来学习表示，采用成对相似度的锐化分布作为关系度量来匹配不同增强的特征向量，实验结果表明我们的方法在性能和训练效率方面显著优于先前的最先进算法。

Jul, 2021

可扩展的图自监督学习

通过采样节点或维度，可以降低损失计算成本，并且不会降低下游性能。

Feb, 2024

大规模物品推荐的自监督学习

提出了一种用于大规模商品推荐的多任务自监督学习（SSL）框架，通过学习商品特征的潜在关系来解决标签稀疏性问题，并通过数据增强方法提高模型泛化性能，结果表明此框架可以显著提高推荐系统的商业指标，在模型得到很少监控的情况下特别有效。

Jul, 2020

通过学习速度感知抽样使自监督学习对于偶发相关性具有鲁棒性

我们研究了自监督学习 (Self-supervised learning) 在存在假相关性 (spurious correlations) 的情况下，说明了尽管存在其他重要的预测特征，通过捕捉与敏感属性相关的引人注目的特征子集，可以最小化自监督学习的训练损失。在这个问题上，我们通过观察自监督学习的学习动态发现，与这种相关性冲突的样本的学习速度较慢。基于这些发现，我们提出了一个学习速度感知的自监督学习 (LA-SSL) 方法，其中我们以与学习速度反相关的概率采样每个训练数据。我们在三个数据集上评估了 LA-SSL，这些数据集之间存在不同属性的假相关性，结果表明它提高了预训练表示在下游分类任务上的鲁棒性。

Nov, 2023

提高自监督学习的算法、模型和数据效率

通过分析梯度公式，我们对基于非参数实例区分的单分支自监督学习方法进行了改进，提出了一种新的自蒸馏损失以减小实例区分中的更新问题，并且在训练开销和性能方面与不同方法进行了系统比较，在不同规模的数据和不同骨干网络下，我们的方法在大大降低开销的同时，比各种基准方法表现更好，尤其在有限数量的数据和小型模型的情况下效果显著。

Apr, 2024