从单模态到多模态：扩展投影器以对齐模态

Sep, 2024

从单模态到多模态：扩展投影器以对齐模态

From Unimodal to Multimodal: Scaling up Projectors to Align Modalities

Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Ankit Singh...

TL;DR本文解决了多模态应用中对强大的单模态编码器未充分利用的问题。我们提出了一种新方法，通过投影层将预训练的单模态编码器对齐，实现语言与视觉模态的连接。我们的最佳模型在数据量减少20倍、计算要求降低65倍的情况下，在ImageNet上获得76%的准确率，显示出该方法在多模态模型构建中的效率和灵活性。

Abstract

Recent contrastive multimodal vision-language models like CLIP have demonstrated robust open-world semantic understanding, becoming the standard image backbones for vision-language applications due to their aligned latent space. However, this practice has left powerful unimodal encoder

发现论文，激发创造

受限资源下的对比视觉-语言预训练

本文提出了一种可在有限资源下进行双编码器多模态表示对齐的新方法，并证明该算法在大规模数据上的有效性。

Dec, 2021

视觉语言预训练的单流多级对齐

利用对比损失进行的自监督视觉-语言预训练虽然有效，但由于双流体系结构仅在全局层面上对齐图像和文本表示法，因此忽略了细粒度对齐。本文提出了一种单通道体系结构，使用两个新任务在多个层次（即全局、细粒度图块-令牌和概念/语义层次）上对齐图像和语言，实现了更细粒度的对齐和更强大的数据效率，这两个新任务是对称跨模态重建和伪标签关键字预测。

Mar, 2022

利用单模编码器进行视觉语言任务的多模适应蒸馏

提出了一种名为MAD的方法，可以使用预训练的单模态视觉和文本编码器对跨模态VL编码器进行自适应蒸馏，从而提高了跨模态学习的性能，特别是在VCR领域取得了SOTA表现。

Apr, 2022

MAPL:针对视觉语言少样本提示的单模态预训练模型参数高效自适应

MAPL是一种有效的参数少、可复用预训练模型并利用其在多模态视觉语言领域中的强大泛化能力的方法，能够将不同模态的模型的表示空间通过对齐的图像文本数据进行轻量级映射，从而在现场学习过程中减少训练量并产生较好的性能。

Oct, 2022

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越VQA和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

UniBoost: 无监督单模态预训练来提升零样本视觉语言任务能力

使用大规模非监督单模型预训练可以提高图像-文本匹配的零样本性能和模型理解图像和文本关系的能力

Jun, 2023

UniFine: 一种用于零样本视觉-语言理解的统一和细粒度方法

本文提出了一个统一的框架，以利用精细的信息实现零样本视觉语言学习，涵盖了多个任务，如视觉问题回答，SNLI-VE和VCR，并证实了该方法的有效性和泛化性。

Jul, 2023

面向通用多模态助手的视觉语言基础模型和数据集的重新构建

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素：用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现，紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 '开箱即用' 的桥梁。基于此，我们提出了 Muffin 框架，直接使用预训练的视觉语言模型作为视觉信号的提供者。此外，我们还提出了 UniMM-Chat 数据集，探索了数据集之间的补充关系，生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能，显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。

Oct, 2023

视觉和语言编码器是否相似地代表世界？

通过使用 Centered Kernel Alignment (CKA) 分析图像字幕基准上视觉和语言模型的潜在空间结构，我们发现不对齐和对齐的编码器的表示空间在语义上是相似的。在无统计相似性的情况下，我们展示了存在可能匹配不对齐编码器而无需任何训练。我们将其视为一种基于种子图匹配问题，利用图之间的语义相似性提出了两种方法 - 一种是快速二次分配问题优化，一种是基于新颖局部CKA度量的匹配/检索。我们在包括跨语言、跨域字幕匹配和图像分类在内的几个下游任务上展示了其有效性。

Jan, 2024

缓解差距：研究提升CLIP中跨模态对齐的方法

通过设计AlignCLIP，本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题，并通过大量实验证明了AlignCLIP在嵌入的跨模态对齐上取得了显著的改进，从而减少了模态间隙，并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。

Jun, 2024