深度表示学习中的幂律研究

Feb, 2022

Investigating Power laws in Deep Representation Learning

Arna Ghosh, Arnab Kumar Mondal, Kumar Krishna Agrawal, Blake Richards

TL;DR本文研究使用自我监督学习方法，在没有标签数据的情况下学习视觉表示，通过计算特征协方差矩阵的本征谱估计幂律系数，发现幂律系数与表示学习的性能和鲁棒性密切相关。

Abstract

representation learning that leverages large-scale labelled datasets, is central to recent progress in machine learning. Access to task relevant labels at scale is often scarce or expensive, motivating the need to learn from unlabelled datasets with →

representation learning self-supervised learning visual representations power law label noise

发现论文，激发创造

自监督对比学习的几何理解

本文研究了自监督学习中编码器和映射器的关系，发现数据增强策略的增加会导致映射器变得更加不变，从而学习将数据投影到低维空间中，具有理论和实验结果的几何学解释。

May, 2022

自监督学习的逆向工程

本文深入分析了自监督学习的机制以及其对表示学习的影响，揭示了自监督学习在样本聚类方面的潜在驱动作用，同时证实了该方法所训练的表示与语义类别之间存在着密切的对齐关系，并且这种对齐关系随着训练和网络深度的加深而不断增强，这对于提高自监督学习方法的性能和效果具有重要的理论和实际意义。

May, 2023

利用幂律缩放应对人工智能面临的关键挑战

使用幂律缩放在深度学习中有助于处理当前人工智能应用中的关键挑战，可用于测量训练复杂性和机器学习任务算法的量化层次，并建立数据集大小估计的基准以实现期望的测试准确性。

Nov, 2022

SSL 交互作用：扩充、归纳偏差，与泛化

本文对自我监督学习的理论与实践中被忽视的问题进行了分析，阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响，并为自我监督学习的从业者指出了一些有价值的见解。

Feb, 2023

观点可能是误导性的：通过特征空间增强改进的 SSL

我们探索了虚假特征对自监督学习的影响，表明常用的数据增强方法可能导致图像空间中不想要的不变性。基于这些发现，我们提出了一种方法（LateTVG），通过修剪编码器的后续层来在预训练过程中消除虚假信息，这种方法在几个基准测试中超过了基线方法，而不需要在自监督学习中使用组或标签信息。

May, 2024

显式地将一般性建模到自监督学习中

自我监督学习的广义性理论定义及新型 GeSSL 框架的提出，能够在数据稀缺和真实世界中实现优越性能。

May, 2024

一种通用的自监督学习 (SSL) 框架，用于从未标记的遥感图像的光谱 - 空间特征中进行表征学习

本研究设计了一种新的自监督学习框架，可以从未标记数据的光谱 - 空间信息中学习表示，并通过两个典型的下游任务评估证明，所提出的 SSL 获得了模型性能的显著提高。

Jun, 2023

大规模物品推荐的自监督学习

提出了一种用于大规模商品推荐的多任务自监督学习（SSL）框架，通过学习商品特征的潜在关系来解决标签稀疏性问题，并通过数据增强方法提高模型泛化性能，结果表明此框架可以显著提高推荐系统的商业指标，在模型得到很少监控的情况下特别有效。

Jul, 2020

自监督学习对数据集失衡更具鲁棒性

本文通过广泛的实验和理论分析，系统研究了在数据集不平衡的情况下自监督学习的表现，并通过半合成实验验证了 SSL 学习了与标签无关但可转移的特征，进而提出了一种新的加权正则化技术，显著提高了 SSL 表示的质量。

Oct, 2021

复杂数据集的基础缩放规律和普适性统计结构

本文使用统计物理学和随机矩阵理论，探究出现在真实和人造数据集中的普遍特征，发现特征 - 特征协方差矩阵的本地和全局特征值在数据规模方面存在着重要差异，而 Shannon 熵则与局部 RMT 结构和特征值尺度有关，并且与强相关数据集相比于无相关性的人造数据集要小很多。

Jun, 2023