从像素到图像与语言理解的 CLIPPO 模型

CVPRDec, 2022

从像素到图像与语言理解的 CLIPPO 模型

CLIPPO: Image-and-Language Understanding from Pixels Only

Michael Tschannen, Basil Mustafa, Neil Houlsby

TL;DR本研究提出了使用纯基于像素的单一编码器进行图像、文本和多模态任务的方法 ——CLIP-Pixels Only，其使用了对比损失进行训练，并且可以表现出强大的多语种多模态检索能力及惊人的视觉问答准确性。

Abstract

multimodal models are becoming increasingly effective, in part due to unified components, such as the transformer architecture. However, multimod

multimodal models transformer architecture contrastive loss clip-pixels only visual question answering

发现论文，激发创造

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

多模态 CLIP 推理用于元 - 少样本图像分类

结合 CLIP 的文本和图像编码器的多模态方法，在广泛采用的基准测试上超越了最先进的元少样学习模型，而无需额外训练。

Mar, 2024

MobileCLIP: 多模态加强训练的快速图像 - 文本模型

在这项研究中，我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列，通过一种名为多模态增强训练的新颖且高效的训练方法，利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移，将额外的知识存储在增强数据集中而避免了训练时计算开销，从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。

Nov, 2023

基于 CLIP 的图像到文本转换提升多模态理解能力

将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程，本文提出了一种创新的集成方法，利用对比式语言图像预训练模型的能力。

Jan, 2024

CLIP 也可以理解文本：通过提示进行短语理解

本篇研究发现，使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器，能够更好地实现短语的理解，甚至能够在正确的提示下，显著优于流行的语言模型，有效地提升实体聚类和扩展任务的效果。

Oct, 2022

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023