多模态学习中对比损失的重要性

Apr, 2023

On the Importance of Contrastive Loss in Multimodal Learning

Yunwei Ren, Yuanzhi Li

TL;DR通过分析一个简单的多模态对比学习模型的训练动态，我们展示了对比对是提高学习效率和平衡学习表示非常重要的因素。特别地，正对会驱使模型在增加条件数的代价下对齐表示，而负对将减小条件数，保持表示的平衡。

Abstract

Recently, contrastive learning approaches (e.g., CLIP (Radford et al., 2021)) have received huge success in multimodal learning, where the model tries to minimize the distance between the representations of diffe

contrastive learning multimodal learning positive pairs negative pairs training dynamics

发现论文，激发创造

通过逐点互信息理解多模态对比学习

本研究探讨了多模态表示学习中对称 InfoNCE 损失的理论理解，通过点间互信息的视角展示了达到预训练最优相似度的编码器在下游分类任务中提供了良好的表示。我们基于理论结果，提出了一种新的多模态对比学习相似度度量方法，并利用非线性核函数增强了其能力。通过在 Conceptual Caption 数据集上进行多模态表示模型的预训练，并在常用基准数据集上进行零样本分类和线性分类的评估，验证了所提方法的有效性。

Apr, 2024

强健的对比学习抵抗嘈杂视图

本文提出一种新的对抗噪声视图具有鲁棒性的对比损失函数，它在图像、视频和图形上的对比学习基准测试中提供了一致的改进，并且是模态无关和与 InfoNCE 损失的一个简单替代方法。

Jan, 2022

视觉语言预训练的改进基线

本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

May, 2023

因式对比学习：超越多视角冗余

本文提出了 FactorCL，一种新的多模态表示学习方法，旨在捕获有助于下游任务的共享信息和独特信息，该方法通过将任务相关信息分解为共享和独特表示，并通过最大化 MI 下限来捕获任务相关信息以及通过最小化 MI 上限来消除任务不相关的信息，并使用多模态数据增强来近似任务相关性。实验证明 FactorCL 在六项基准测试上取得了最先进的结果。

Jun, 2023

消除 CLIP 的偏差：多模态学习中数据平衡的实用性如何？

探讨使用数据平衡来减轻对比语言 - 图像预训练（CLIP）中的偏见的有效性，提出了一种名为 Multi-Modal Moment Matching（M4）的新算法，用于减少多模态数据中的表示和关联偏见，并对 CLIP 对偏见的学习和遗忘的动态性进行了分析。

Mar, 2024

多模式对比学习对分布偏移的鲁棒性

通过分析多模态对比学习 (MMCL) 方法，我们揭示了其在学习鲁棒表示方面的两种机制：类内对比机制和跨类特征共享机制，这两种机制防止了训练数据中过度呈现的虚假特征对通用核心特征的影响，从而在分布偏移下实现了更优的零样本分类精度。

Oct, 2023

异构对比学习

本论文提出了一个统一的异构学习框架，通过结合加权无监督对比损失和加权有监督对比损失来解决对比学习中的假阴性对问题，从而模拟多种异构性的数据。实验结果表明，该方法在模拟复杂数据时具有较好的效果和高效性。

May, 2021

自适应多头对比学习

对比学习中，为了实现正样本对高相似度要求和负样本对低相似度要求，提出了使用多个投影头的自适应多头对比学习（AMCL）方法，通过使用每个投影头生成不同特征集合，以及通过自适应温度进行加权和正则化，针对问题进行改进。

Oct, 2023

CWCL：使用持续加权对比损失进行跨模态迁移

本文探讨了交叉感知培训中的对比训练，其中一个模态的预训练模型通过成对的数据用于学习另一个领域的表示学习。采用连续加权对比损失（CWCL）的本文提出了一个新的损失函数，通过连续相似性度量来对齐嵌入空间。在 0-shot 图像分类、0-shot 语音意图分类和关键词分类中取得了相对于现有方法的显著改进。

Sep, 2023

多模式表示学习中潜在模态结构的理解与构建

我们提出了三种构建潜在模态结构的通用方法，涵盖了深度特征分离，布朗桥损失和几何一致性损失，通过广泛的实验在多个任务上获得一贯的性能提升。

Mar, 2023