通过逐坐标优化理解深度对比学习
该研究通过分析对比学习(CL)揭示了其对采样偏差具有内在的容忍度,并借助分布鲁棒优化(DRO)的视角填补了现有理论无法解释这一现象的研究空白,得出几个关键见解:(1)CL 实质上是在负采样分布上进行 DRO,从而在各种潜在分布中实现鲁棒性,并表现出对采样偏差的鲁棒性;(2)温度 τ 的设计不仅仅是启发式的,而且起到拉格朗日系数的作用,调节潜在分布集合的大小;(3)DRO 和互信息之间建立了理论联系,从而为 “InfoNCE 作为互信息的估计” 提供了新的证据,并提出了一种新的基于 φ- 散度的广义互信息估计方法。我们还确定了 CL 的潜在缺点,包括过度保守和对异常值的敏感性,并引入了一种新颖的调整的 InfoNCE 损失(ADNCE)来减轻这些问题。它改进了潜在分布,提高了性能并加快了收敛速度。在图像、句子和图等多个领域进行了大量实验证实了该方法的有效性。代码可在 https://github.com/junkangwu/ADNCE 上获取。
Oct, 2023
通过对比学习的成功启发,我们系统地研究了推荐系统损失函数,包括列表损失(softmax)、成对损失(BPR)和逐点损失(MSE 和 CCL)。在这个工作中,我们引入了带有平衡系数的 InfoNCE+,强调其性能优势,尤其是与我们的新解耦对比损失 MINE + 相结合时。我们还利用了去偏的 InfoNCE 来修正逐点推荐损失 CCL,称为去偏 CCL。有趣的是,我们的分析表明线性模型如 iALS 和 EASE 本质上是去偏的。实证结果证明了 MINE + 和去偏 CCL 的有效性。
Dec, 2023
在对比学习中,我们提出了 AnInfoNCE,它能够在现实场景中揭示潜在因素,并广义上推广了以往的可识别性结果。我们的控制实验验证了我们的可识别性结果,并展示了在 CIFAR10 和 ImageNet 中恢复先前已经损失的信息的能力,但同时降低了下游任务的准确度。此外,我们还探讨了理论假设与实际实现之间的进一步不匹配,包括对硬性负样本挖掘和损失集合的扩展。
Jun, 2024
通过引入不对称信息最大化损失函数(asymmetric InfoNCE objective),从而区分对待对抗样本,提高对抗鲁棒性。该方法在多种微调模型下均能取得优异的效果。
Jul, 2022
本文探讨在对比学习中通过新的概率模型进行的有效修改。通过推导一个特殊形式的对比损失函数,即联合对比学习(JCL),JCL 在搜索不变特征时具有更紧的约束条件。我们提出了对这种形式的上界的研究,这种上界允许端到端的训练方式中的解析性解决方案。尽管 JCL 在多个计算机视觉应用中实用,但我们也从理论上揭示了支配 JCL 行为的某些机制。我们证明了所提议的公式具有固有的机制,强烈倾向于在每个实例特定的类别内保持相似性,因此在搜索不同实例之间的辨别特征时仍具有优势。我们在多个基准上评估了这些提议,展示了对现有算法的显著改进。
Sep, 2020
本研究探讨了在最小化损失时,编码器输出空间内所寻求的类别性空间几何是否存在本质差异。同时提供实证证据表明,两种损失函数的优化行为存在显著不同,这将对神经网络的训练产生影响。
Feb, 2021
本文提出了解决自监督对比学习中的批处理大小等参数问题的一种简单有效的基准方法(DCL),并对其进行了在多种基准测试中的复现和实时检验,最终实现了较少受亚优化超参数影响且性能不错的对比学习方法。
Oct, 2021
不同对比学习(CL)损失函数实际上都优化了什么?通过分析多个 CL 方法,我们证明它们在某些条件下,在优化批级目标或渐近期望时,都具有相同的极小化解。在两种情况下,我们发现它们与超球面能量最小化(HEM)问题密切相关。我们根据这一点的启示,提出了一种新的 CL 目标,命名为分离的超球面能量损失(DHEL)。DHEL 通过将目标超球面能量与正样本的对齐解耦,简化了问题,同时保持了相同的理论保证。更进一步,我们展示了另一个相关的 CL 家族 —— 核对比学习(KCL)也具有相同的结果,此外,预期损失与批次大小无关,从而确定了非渐近区域的极小化解。经验结果表明,在多个计算机视觉数据集上,在不同批次大小和超参数组合以及降维崩溃方面均实现了改进的下游性能和鲁棒性。
May, 2024
本研究旨在解决对比学习中普遍存在的不稳定问题,具体研究 InfoNCE 损失函数及其导数。我们揭示了这些损失函数表现出的一种限制行为,导致嵌入倾向于融合成一个奇异点的收敛现象,从而对后续的有监督学习任务中的分类准确性产生不利影响。通过理论分析,我们证明当嵌入被等化或限制在一个一维线性子空间时,它们代表了 InfoNCE 的一个局部最小值。我们的研究提出了一种创新策略,利用与精调阶段中通常使用的标记数据相同或更少的数据。我们提出的损失函数,正交锚回归损失,旨在解开嵌入聚类,显著增强每个嵌入的独特性,同时确保它们聚合到密集的、明确定义的聚类中。我们的方法在 CIFAR10 和 CIFAR100 数据集上通过仅使用传统标记要求的一小部分数据取得了显著改善,这一点可以从实验结果中得到证明。
Mar, 2024
本文提出了一种自我监督的增量对比学习框架 (ICL),采用增量信息 NCE 损失函数和深度强化学习率 (meta-optimization with LRL),从而避免了必须重训练的缺点,并在不同领域的广泛实验中取得了 16.7 倍的训练加速和 16.8 倍快速收敛的竞争性结果。
Jan, 2023