缓解差距:研究提升CLIP中跨模态对齐的方法
本篇论文提出了一种新的方法SoftCLIP,它通过引入软化的目标来实现交叉模态对齐,并利用模内的自相似性指导实现许多对许多的关系,从而解决了高质量图像-文本配对数据的获取问题,成果表现良好。
Mar, 2023
通过跨模态引导和模态置信度集成,X-MoRe方法利用CLIP的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了CLIP的零样本分类能力。
Aug, 2023
在这项工作中,我们介绍了一种用于CLIP的样本高效领域适应策略,称为Domain Aligned CLIP (DAC),它在不对主模型进行全量微调的情况下,改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入,DAC提供了一个计算效率高、抗分布转移性强且不改变CLIP参数的少样本微调框架,在11个广泛使用的图像分类任务中,以2.3%的提升应对16个样本分类挑战,并在4个鲁棒性基准上展现出竞争性能。
Nov, 2023
本研究提出了一种新方法,通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像,并优化合成图像在CLIP嵌入空间中的伪特征以接近真实图像特征,同时利用图像中的显著对象来增强模态对齐的学习。实验证明,该方法在基准数据集上取得了最先进的性能。
Dec, 2023
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和CLIP排序策略来提高字幕性能,并证明其在MSCOCO、Flickr30k和VQAV2等数据集上具有显著的性能提升。
Jan, 2024
通过使用 Centered Kernel Alignment (CKA) 分析图像字幕基准上视觉和语言模型的潜在空间结构,我们发现不对齐和对齐的编码器的表示空间在语义上是相似的。在无统计相似性的情况下,我们展示了存在可能匹配不对齐编码器而无需任何训练。我们将其视为一种基于种子图匹配问题,利用图之间的语义相似性提出了两种方法 - 一种是快速二次分配问题优化,一种是基于新颖局部CKA度量的匹配/检索。我们在包括跨语言、跨域字幕匹配和图像分类在内的几个下游任务上展示了其有效性。
Jan, 2024
利用预训练的多模态对比表示空间可以从单模态数据中学习跨模态任务,我们提供了这个空间几何的理论解释,并引入了一个三步方法(连接、降维、破坏)来缩小模态差距,增强嵌入的互换性,实现了从单模态数据中有效地进行跨模态学习,取得了零样本图像/音频/视频字幕和文本到图像生成的最新成果。
Jan, 2024
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP在扩展CLIP的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了RankCLIP在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
在多模态对比模型中存在模态差距(modality gap),且对比损失(contrastive loss)实际上导致了这种差距。为了解决这个问题,研究人员通过将单模态对比损失的均匀性和对齐性原则引入到多模态环境中,改进了对比损失函数(CLIP loss),使得嵌入更均匀地分布在表示空间中,从而消除了差距,进而在零样本图像分类和多模态算术等下游任务中实现了更好的性能。
May, 2024
ModalChorus是一种用于视觉和语言多模态嵌入的交互式系统,通过Modal Fusion Map(MFM)嵌入探索和对齐,提高交叉模态特征表达和模型性能,适用于跨模态任务。
Jul, 2024