麻省理工学院提出了新的多模态混合方法 —— 测地线多模态混合，以实现强化微调

Mar, 2022

麻省理工学院提出了新的多模态混合方法 —— 测地线多模态混合，以实现强化微调

Geodesic Multi-Modal Mixup for Robust Fine-Tuning

Junhyuk So, Changdae Oh, Yongtaek Lim, Hoyoon Byun, Minchul Shin...

TL;DR本研究提供了一种理解多模态嵌入的视角，并提出了一种新的端到端微调方法，以鼓励更好的统一性和对齐得分，通过大量的检索、分类和结构感知任务的实验，证明了我们的地球多模态 Mixup 学习到了一个强健的表示，并在各种下游任务上提供了改进的性能。

Abstract

Pre-trained large-scale models provide a transferable embedding, and they show promising performance on diverse downstream tasks. However, the analysis of learned embedding has not been explored well, and the transferability for cross-modal tasks can be improved. This paper provides a perspective to understand →

multi-modal embedding alignment uniformity fine-tuning downstream task

发现论文，激发创造

在单个 GPU 上的数据有效多模态融合

FuseMix 是一种多模态增强方案，在任意预训练的单模态编码器的潜空间上操作，通过使用 FuseMix 进行多模态对齐，我们以远低于 CLIP 的计算和数据成本，在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。

Dec, 2023

缓解差距：研究提升 CLIP 中跨模态对齐的方法

通过设计 AlignCLIP，本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题，并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进，从而减少了模态间隙，并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。

Jun, 2024

软对齐下探索低质量多模态数据中的对齐语义

使用 Gentle-CLIP 方法，通过将半监督多模态对齐转化为流形匹配问题，利用新型的语义密度分布损失、多核最大平均差异和自监督对比损失等技术实现了更少匹配对的多模态对齐，提升了表示分布的稳定性和模态间的距离，且在蛋白质、遥感和图像语言领域的多个任务上得到了验证。

Jun, 2024

多模式表示学习中潜在模态结构的理解与构建

我们提出了三种构建潜在模态结构的通用方法，涵盖了深度特征分离，布朗桥损失和几何一致性损失，通过广泛的实验在多个任务上获得一贯的性能提升。

Mar, 2023

非对齐万事通：或在多模态模型中将任何文本对齐到任何图像

通过共享嵌入空间，新兴的多模态模型展示了空前的零样本能力。然而，如果不同的模态存在错位，共享嵌入空间可能会带来新的弱点。本文通过最小程度地修改图像来匹配给定文本的嵌入，展示了使用最近开发的有效基于梯度的过程，证明了我们能够通过不可察觉的对抗性攻击将可区分文本的嵌入与任意图像对齐，揭示了语义不相关的图像可以拥有相同文本的嵌入，并且在视觉上难以区分的图像可以与非常不同的文本的嵌入匹配。我们的技术在应用到来自多个来源的文本数据集和图像时达到了 100% 的成功率。如果不能克服这个弱点，多模态模型无法在语义上有意义地稳定地对齐来自不同模态的输入。

Jul, 2024

非模态鸿沟：对比鸿沟的特征与解决

在多模态对比模型中存在模态差距（modality gap），且对比损失（contrastive loss）实际上导致了这种差距。为了解决这个问题，研究人员通过将单模态对比损失的均匀性和对齐性原则引入到多模态环境中，改进了对比损失函数（CLIP loss），使得嵌入更均匀地分布在表示空间中，从而消除了差距，进而在零样本图像分类和多模态算术等下游任务中实现了更好的性能。

May, 2024

多模式生成嵌入模型

多模态生成嵌入模型能够同时处理多模态任务，在效率上具有竞争力，具备良好的图像标题生成和文本图像检索能力。

May, 2024

超越第一印象：整合多模态联合线索用于全面的 3D 表示

通过引入多视图联合模态建模方法，该研究论文提出了一种名为 JM3D 的新方法，以解决 3D 表示学习中的信息降解和不足协同问题，并在零样本 3D 分类任务上取得了领先于现有方法的性能。

Aug, 2023

跨模态对比表示学习中的模态差距理解

该研究提出了模态间隙这一多模型表示空间中的有趣几何现象，对此进行了系统分析，以及对构成格局的模型初始化和对比学习优化进行了实证和理论上的解释。研究表明，严格维持不同数据模态之间的分离效用，有助于提高模型的下游分类性能和公平性。

Mar, 2022

几何多模态对比表示学习

本研究提出了一种名为 Geometric Multimodal Contrastive (GMC) 的表示学习方法，采用两级体系结构和多模态对比损失函数，可用于处理缺失数据，在三个不同的学习问题上实现了最先进的性能。

Feb, 2022