多模态对比学习的泛化性

Jun, 2023

On the Generalization of Multi-modal Contrastive Learning

Qi Zhang, Yifei Wang, Yisen Wang

TL;DR本文通过建立多模态对称矩阵分解和对称矩阵分解的内在联系，证明了多模态对比学习在图像下游任务中的泛化保证，并通过统一模型表明多模态对比学习隐含地通过文本对生成了伪正对，从而具有更多的语义一致和多样性正对，可显著提高基于自我监督的对比学习在图像分类中的性能。

Abstract

multi-modal contrastive learning (MMCL) has recently garnered considerable interest due to its superior performance in visual tasks, achieved by embedding multi-modal data, such as visual-language pairs. However,

multi-modal contrastive learning visual-language pairs asymmetric matrix factorization generalization guarantees clip-guided resampling methods

发现论文，激发创造

多模式对比学习对分布偏移的鲁棒性

通过分析多模态对比学习 (MMCL) 方法，我们揭示了其在学习鲁棒表示方面的两种机制：类内对比机制和跨类特征共享机制，这两种机制防止了训练数据中过度呈现的虚假特征对通用核心特征的影响，从而在分布偏移下实现了更优的零样本分类精度。

Oct, 2023

因式对比学习：超越多视角冗余

本文提出了 FactorCL，一种新的多模态表示学习方法，旨在捕获有助于下游任务的共享信息和独特信息，该方法通过将任务相关信息分解为共享和独特表示，并通过最大化 MI 下限来捕获任务相关信息以及通过最小化 MI 上限来消除任务不相关的信息，并使用多模态数据增强来近似任务相关性。实验证明 FactorCL 在六项基准测试上取得了最先进的结果。

Jun, 2023

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022

多模态 LLM 的视觉缺陷探究

通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与 MLLMs 相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024

多模态语义理解与对比跨模态特征对齐

本篇研究提出了一种基于 CLIP 引导的对比学习的架构，用于执行多模态特征对齐，将来自不同模态的特征投影到一个统一的深度空间，实验结果表明，我们提出的模型在多模态讽刺检测和多模态情感分析任务中明显优于多个基准模型，我们的特征对齐策略相对于其他聚合方法和甚至富含知识的模型也带来了明显的性能增益，此外，我们的模型实现简单，无需使用特定任务的外部知识，因此可以轻松迁移到其他多模态任务。

Mar, 2024

最大间隔对比学习

本研究在无监督学习中采用了最大化分类器决策边界的最大间隔对比学习方法，通过 SVM 优化问题选择出稀疏支持向量作为负样本，并优化算法以减小计算复杂度，从而在视觉基准数据集中获得了更好的无监督表征学习性能。

Dec, 2021

CLIP 的多模态多标签分类

设计一个学习算法来处理图像和文本两个数据源，通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示，最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。

Jun, 2024

软对齐下探索低质量多模态数据中的对齐语义

使用 Gentle-CLIP 方法，通过将半监督多模态对齐转化为流形匹配问题，利用新型的语义密度分布损失、多核最大平均差异和自监督对比损失等技术实现了更少匹配对的多模态对齐，提升了表示分布的稳定性和模态间的距离，且在蛋白质、遥感和图像语言领域的多个任务上得到了验证。

Jun, 2024

CLAMP：对比式语言模型启发调节

研究论文简介：本文研究了大型语言模型在图像分类方面的应用，通过对多模态语言模型进行轻微微调，使用对比式图像 - 标题匹配目标，取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能，同时保留了语言模型的生成能力。

Dec, 2023

从共享对比语言图像预训练中学习视觉表征

本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法，发现优于原始的 CLIP 方法，并且支持参数量的降低，通过共享参数，实现了不同模态之间的信息交互和相近语义结构的转移。

Jul, 2022