ASIF: 将耦合数据转换为多模态无需训练的单一模态模型

Oct, 2022

ASIF: 将耦合数据转换为多模态无需训练的单一模态模型

ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training

Antonio Norelli, Marco Fumero, Valentino Maiorca, Luca Moschella, Emanuele Rodolà...

TL;DR本文通过使用单领域编码器和较少的图文对，证明可以在不进行任何训练的情况下创建一个共同的空间，并且该模型对于基于图文模型的转移效果很好。

Abstract

clip proved that aligning visual and language spaces is key to solving many vision tasks without explicit training, but required to train image and text encoders from scratch on a huge dataset. lit improved this

clip lit common space image-text pairs zero-shot visual benchmarks

发现论文，激发创造

UniBoost: 无监督单模态预训练来提升零样本视觉语言任务能力

使用大规模非监督单模型预训练可以提高图像 - 文本匹配的零样本性能和模型理解图像和文本关系的能力

Jun, 2023

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

从共享对比语言图像预训练中学习视觉表征

本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法，发现优于原始的 CLIP 方法，并且支持参数量的降低，通过共享参数，实现了不同模态之间的信息交互和相近语义结构的转移。

Jul, 2022

视觉和语言编码器是否相似地代表世界？

通过使用 Centered Kernel Alignment (CKA) 分析图像字幕基准上视觉和语言模型的潜在空间结构，我们发现不对齐和对齐的编码器的表示空间在语义上是相似的。在无统计相似性的情况下，我们展示了存在可能匹配不对齐编码器而无需任何训练。我们将其视为一种基于种子图匹配问题，利用图之间的语义相似性提出了两种方法 - 一种是快速二次分配问题优化，一种是基于新颖局部 CKA 度量的匹配 / 检索。我们在包括跨语言、跨域字幕匹配和图像分类在内的几个下游任务上展示了其有效性。

Jan, 2024

图像 - 文本 - 标签空间统一的对比学习

该研究提出了一种新型的学习范式 - 统一对比学习（UniCL），通过将人类标注的图像标签数据和网络爬取的图像文本数据相结合，学习出在零样本，线性探测，完全微调和迁移学习方案中具有语义丰富而有区分性的表示。在各种基准测试中，UniCL 的性能均优于语言图像对比学习和监督学习方法，并且在纯图像标签数据上，其表现也不亚于监督学习方法。

Apr, 2022

从图像空间线性映射到文本空间

该研究探讨了文本型的语言模型对外部世界的表示程度。研究发现，通过单一的线性变换，可以将视觉模型的特征表示连续地传递给被固定的文本型语言模型，从而取得了与同时调整图像和文本的模型相同的指标。研究表明，语言模型的概念表示与以图像为基础的模型在结构上相似，甚至能够转移视觉信息。

Sep, 2022

LAFITE：面向文本图像生成的语言无关训练

本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法，采用图像特征生成文本特征，实现了对文本数据的无缝融合。实验结果表明，该方法在标准文本到图像生成任务中取得了最好的表现，并且优于大多数使用完整图像 - 文本对进行训练的现有模型。此外，我们的方法可以应用于微调预训练模型，从而节省文本到图像生成模型的培训时间和成本。

Nov, 2021

只用语言数据学习视觉任务，竟然没有图像！

本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能，并将其转移到视觉任务中，同时提出探究对比模型嵌入空间中不同模态的系统差异，进一步理解和缓解这种关注的策略。实践证明，我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型，性能表现接近仅使用图像训练数据建立的模型，尤其是针对图像标注和视觉蕴含任务的文本训练数据，有望超过 9 个百分点的提升。同时，我们还展示了多种样式的图像标注模型，这些模型使用的不是图像数据和人工策划的语言数据，而是来自于图书、网络或语言模型可用的文本数据。

Nov, 2022

缓解差距：研究提升 CLIP 中跨模态对齐的方法

通过设计 AlignCLIP，本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题，并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进，从而减少了模态间隙，并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。

Jun, 2024

对比交叉模态模型的语言编码器

对比交叉模态模型如 CLIP 和 CLAP 对视觉 - 语言（VL）和音频 - 语言（AL）任务有所帮助，本篇研究评估了无监督和监督的句子嵌入训练对语言编码器质量和交叉模态任务性能的影响，发现句子嵌入训练有助于提高对比 VL 模型的性能，但在 AL 预训练中效果较少，可能是由于预训练数据量有限所致。通过对表示空间的分析，句子嵌入训练改善了文本空间的均匀性，但降低了交叉模态对齐性。

Oct, 2023