麻省理工学院提出了新的多模态混合方法 —— 测地线多模态混合,以实现强化微调
FuseMix 是一种多模态增强方案,在任意预训练的单模态编码器的潜空间上操作,通过使用 FuseMix 进行多模态对齐,我们以远低于 CLIP 的计算和数据成本,在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。
Dec, 2023
通过设计 AlignCLIP,本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题,并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进,从而减少了模态间隙,并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。
Jun, 2024
使用 Gentle-CLIP 方法,通过将半监督多模态对齐转化为流形匹配问题,利用新型的语义密度分布损失、多核最大平均差异和自监督对比损失等技术实现了更少匹配对的多模态对齐,提升了表示分布的稳定性和模态间的距离,且在蛋白质、遥感和图像语言领域的多个任务上得到了验证。
Jun, 2024
通过共享嵌入空间,新兴的多模态模型展示了空前的零样本能力。然而,如果不同的模态存在错位,共享嵌入空间可能会带来新的弱点。本文通过最小程度地修改图像来匹配给定文本的嵌入,展示了使用最近开发的有效基于梯度的过程,证明了我们能够通过不可察觉的对抗性攻击将可区分文本的嵌入与任意图像对齐,揭示了语义不相关的图像可以拥有相同文本的嵌入,并且在视觉上难以区分的图像可以与非常不同的文本的嵌入匹配。我们的技术在应用到来自多个来源的文本数据集和图像时达到了 100% 的成功率。如果不能克服这个弱点,多模态模型无法在语义上有意义地稳定地对齐来自不同模态的输入。
Jul, 2024
在多模态对比模型中存在模态差距(modality gap),且对比损失(contrastive loss)实际上导致了这种差距。为了解决这个问题,研究人员通过将单模态对比损失的均匀性和对齐性原则引入到多模态环境中,改进了对比损失函数(CLIP loss),使得嵌入更均匀地分布在表示空间中,从而消除了差距,进而在零样本图像分类和多模态算术等下游任务中实现了更好的性能。
May, 2024
通过引入多视图联合模态建模方法,该研究论文提出了一种名为 JM3D 的新方法,以解决 3D 表示学习中的信息降解和不足协同问题,并在零样本 3D 分类任务上取得了领先于现有方法的性能。
Aug, 2023
该研究提出了模态间隙这一多模型表示空间中的有趣几何现象,对此进行了系统分析,以及对构成格局的模型初始化和对比学习优化进行了实证和理论上的解释。研究表明,严格维持不同数据模态之间的分离效用,有助于提高模型的下游分类性能和公平性。
Mar, 2022
本研究提出了一种名为 Geometric Multimodal Contrastive (GMC) 的表示学习方法,采用两级体系结构和多模态对比损失函数,可用于处理缺失数据,在三个不同的学习问题上实现了最先进的性能。
Feb, 2022