监督对比损失的神经坍缩几何工程
本文通过实验证明:监督对比损失学习到的嵌入空间的几何结构形成正交框架,而交叉熵损失学习到的嵌入空间的几何结构高度依赖于类大小;同时,通过选取不同的数据分组算法,加快正交框架的出现,为监督学习提供一种新的训练策略
Jun, 2023
本研究提出了一种简单而有效的对比学习框架来解决 Contrastive Self-supervised Learning (CSL) 中样本不足问题,将同一个输入的不同视角拉近,不同输入的视角推远,提高了视觉表征的质量,并在 ImageNet-1K 数据集上表现出了超越完全监督训练版本的性能。
Aug, 2022
对于一种广泛研究的数据模型和一般损失和样本硬化函数,我们证明了监督对比学习(SCL)、强制对比学习(HSCL)和无监督对比学习(UCL)的风险在表现出神经塌缩(NC)的表示下被最小化,即类别平均值形成一个等角紧框架(ETF),同一类别的数据映射到相同的表示。我们还证明了对于任何表示映射,相应的 HSCL 和 Hard-UCL(HUCL)的风险都被相应的 SCL 和 UCL 的风险下界约束。虽然 ETF 对于 SCL 的最优性已知,但只在 InfoNCE 损失情况下有效,然而在一般损失和硬化函数下,对于 HSCL 和 UCL 的最优性是新颖的。此外,我们的证明更为简洁、紧凑且透明。我们通过实验证明,初次尝试使用随机初始化和适当的硬度级别下的 HSCL 和 HUCL 风险的 ADAM 优化,结合单位球或单位球面特征归一化,确实可以收敛到 NC 几何形状。然而,不加入硬负样本或特征归一化的情况下,通过 ADAM 学习的表示存在维度塌缩(DC),并不能达到 NC 几何形状。
Nov, 2023
本研究探讨了在最小化损失时,编码器输出空间内所寻求的类别性空间几何是否存在本质差异。同时提供实证证据表明,两种损失函数的优化行为存在显著不同,这将对神经网络的训练产生影响。
Feb, 2021
本文通过使用无限制特征模型和引入 Simplex 编码标签插值(SELI)作为神经坍塌现象的不变特征,证明了在使用交叉熵损失和消失正则化时,不受类别不平衡的影响,分类器总是插值出一个 Simplex 编码标签矩阵,而它们的几何形状取决于相同标签矩阵的 SVD 因子。同时,实验结果也表明收敛速度会随着类别不平衡的增加而变慢,并证明正则化对于修正分类器的几何形状也有着至关重要的作用。
Aug, 2022
本文探讨了无监督自学习对偶损失模型(SSCL)的理论基础,提出了在随机邻居嵌入(SNE)视角下,使用数据增强构建 “正” 偶对实现了对输入空间对比度的优化,通过与 SNE 对应,进一步提供了方法学指导并证明了使用域不可知增强与隐式偏见得到的潜在优势,同时证明了从 SNE 到 t-SNE 转换的适用性并在实验中取得了相应的优化效果。
May, 2022
本文提出一种半监督对比学习 (Semi-supervised Contrastive Learning,简称 SsCL) 的训练策略,将自监督学习中著名的对比损失与半监督学习中的交叉熵损失相结合,进而联合优化两个目标,并使用神经网络来实现。结果表明,SsCL 产生了更具有区分性的表示,并对于少样本学习非常有益。在使用 ResNet50 作为后端的 ImageNet 数据集上,SsCL 分别以 1% 和 10% 的标记样本获得了 60.2% 和 72.1% 的 top-1 精度,这比基线要好得多,也优于以前的半监督学习和自监督学习方法。
May, 2021
将 SCL 问题描述为 RoBERTa 语言模型精调阶段的多目标优化问题,使用线性标量化方法和精确 Pareto 最优解法解决优化问题,在多个 GLUE 基准任务上,无需使用数据增强、存储器库或生成对抗性示例,找到了比竞争对比学习基线更好的学习策略。
Sep, 2022
对使用 sigmoid 损失进行对比学习的理论分析,使用双常数嵌入模型(CCEM)参数化多种已知嵌入结构,数学分析 sigmoid 损失下的最优嵌入,实验结果与理论结果一致。
Feb, 2024
在保留数据集邻近信息的范围内,我们将自监督对比方法扩展到完全监督的设置,以有效利用标签信息。属于同一类别的样本集群在低维嵌入空间中聚集在一起,同时将不同类别的样本集群推开。
Sep, 2023