ASIF: 将耦合数据转换为多模态无需训练的单一模态模型
通过共享的、结构化的视觉概念潜在空间,将图像特征转化到语义向量嵌入空间中,并使用同一语言模型将其解码为场景描述,无需明确监督来了解图像;这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库,并且具有鲁棒性。
Aug, 2019
本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法,发现优于原始的 CLIP 方法,并且支持参数量的降低,通过共享参数,实现了不同模态之间的信息交互和相近语义结构的转移。
Jul, 2022
通过使用 Centered Kernel Alignment (CKA) 分析图像字幕基准上视觉和语言模型的潜在空间结构,我们发现不对齐和对齐的编码器的表示空间在语义上是相似的。在无统计相似性的情况下,我们展示了存在可能匹配不对齐编码器而无需任何训练。我们将其视为一种基于种子图匹配问题,利用图之间的语义相似性提出了两种方法 - 一种是快速二次分配问题优化,一种是基于新颖局部 CKA 度量的匹配 / 检索。我们在包括跨语言、跨域字幕匹配和图像分类在内的几个下游任务上展示了其有效性。
Jan, 2024
该研究提出了一种新型的学习范式 - 统一对比学习(UniCL),通过将人类标注的图像标签数据和网络爬取的图像文本数据相结合,学习出在零样本,线性探测,完全微调和迁移学习方案中具有语义丰富而有区分性的表示。在各种基准测试中,UniCL 的性能均优于语言图像对比学习和监督学习方法,并且在纯图像标签数据上,其表现也不亚于监督学习方法。
Apr, 2022
该研究探讨了文本型的语言模型对外部世界的表示程度。研究发现,通过单一的线性变换,可以将视觉模型的特征表示连续地传递给被固定的文本型语言模型,从而取得了与同时调整图像和文本的模型相同的指标。研究表明,语言模型的概念表示与以图像为基础的模型在结构上相似,甚至能够转移视觉信息。
Sep, 2022
本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法,采用图像特征生成文本特征,实现了对文本数据的无缝融合。实验结果表明,该方法在标准文本到图像生成任务中取得了最好的表现,并且优于大多数使用完整图像 - 文本对进行训练的现有模型。此外,我们的方法可以应用于微调预训练模型,从而节省文本到图像生成模型的培训时间和成本。
Nov, 2021
本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能,并将其转移到视觉任务中,同时提出探究对比模型嵌入空间中不同模态的系统差异,进一步理解和缓解这种关注的策略。实践证明,我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型,性能表现接近仅使用图像训练数据建立的模型,尤其是针对图像标注和视觉蕴含任务的文本训练数据,有望超过 9 个百分点的提升。同时,我们还展示了多种样式的图像标注模型,这些模型使用的不是图像数据和人工策划的语言数据,而是来自于图书、网络或语言模型可用的文本数据。
Nov, 2022
通过设计 AlignCLIP,本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题,并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进,从而减少了模态间隙,并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。
Jun, 2024
对比交叉模态模型如 CLIP 和 CLAP 对视觉 - 语言(VL)和音频 - 语言(AL)任务有所帮助,本篇研究评估了无监督和监督的句子嵌入训练对语言编码器质量和交叉模态任务性能的影响,发现句子嵌入训练有助于提高对比 VL 模型的性能,但在 AL 预训练中效果较少,可能是由于预训练数据量有限所致。通过对表示空间的分析,句子嵌入训练改善了文本空间的均匀性,但降低了交叉模态对齐性。
Oct, 2023