信息最大似然到基于核函数的损失函数：从小批量到渐近分析的对比学习桥接

May, 2024

信息最大似然到基于核函数的损失函数：从小批量到渐近分析的对比学习桥接

Bridging Mini-Batch and Asymptotic Analysis in Contrastive Learning: From InfoNCE to Kernel-Based Losses

Panagiotis Koromilas, Giorgos Bouritsas, Theodoros Giannakopoulos, Mihalis Nicolaou, Yannis Panagakis

TL;DR不同对比学习（CL）损失函数实际上都优化了什么？通过分析多个CL方法，我们证明它们在某些条件下，在优化批级目标或渐近期望时，都具有相同的极小化解。在两种情况下，我们发现它们与超球面能量最小化（HEM）问题密切相关。我们根据这一点的启示，提出了一种新的CL目标，命名为分离的超球面能量损失（DHEL）。DHEL通过将目标超球面能量与正样本的对齐解耦，简化了问题，同时保持了相同的理论保证。更进一步，我们展示了另一个相关的CL家族——核对比学习（KCL）也具有相同的结果，此外，预期损失与批次大小无关，从而确定了非渐近区域的极小化解。经验结果表明，在多个计算机视觉数据集上，在不同批次大小和超参数组合以及降维崩溃方面均实现了改进的下游性能和鲁棒性。

Abstract

What do different contrastive learning (CL) losses actually optimize for? Although multiple CL methods have demonstrated remarkable representation learning capabilities, the differences in their inner workings re