CLIP-ReID: 充分利用视觉 - 语言模型进行图像重新识别，无需具体文本标签

AAAINov, 2022

CLIP-ReID: 充分利用视觉 - 语言模型进行图像重新识别，无需具体文本标签

CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels

Siyuan Li, Li Sun, Qingli Li

TL;DR本文提出了一种利用 CLIP 模型的文本 - 图像交互能力来解决细粒度图像重识别问题的方法，通过对学习的文本编码器给出模糊的文本描述来增强视觉表示，并通过一系列基于对比度损失的优化训练来优化文本令牌。

Abstract

Pre-trained vision-language models like clip have recently shown superior performances on various downstream tasks, including image classification and segmentation. However, in fine-grained image re-identification

clip fine-grained image re-identification cross-modal description ability text tokens contrastive loss

发现论文，激发创造

基于典型对比学习的 CLIP 微调方法用于物体重新识别

這項研究旨在將大規模預先訓練的視覺語言模型，如對比語言 - 圖像預訓練（CLIP），適應各種監督設置下物體再識別（Re-ID）的表現提升。在本研究中，我們首先分析了 CLIP-ReID 中 prompt learning 的作用並確認了其限制。基於我們的調查，我們提出了一種簡單而有效的方法，通過使用原型對比學習（PCL）損失直接微調 CLIP 的圖像編碼器，從而消除了 prompt learning 的需要。在人物和車輛 Re-ID 數據集上的實驗結果證明了我們的方法與 CLIP-ReID 的競爭力。此外，我們將基於 PCL 的 CLIP 微調方法擴展到無監督場景，達到了最新的表現。

Oct, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

ReCLIP：使用源域自适应提炼对比语言图像预训练

通过提出 ReCLIP 方法，第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法，该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响，在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。

Aug, 2023

文本与图像人物再识别的提示解耦

这篇论文主要研究了使用文本描述查询来进行图像中的人物重识别，并提出了一种两阶段训练方法，通过解耦域适应和任务适应的过程来改善性能。

Jan, 2024

RWKV-CLIP：一个稳健的视觉 - 语言表示学习器

通过扩展数据集和模型架构，该研究进一步探索了具有对比语言 - 图像预训练（CLIP）的视觉语言任务的性能，在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架，该研究提出了 RWKV-CLIP，其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集，证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器，在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。

Jun, 2024

CLIP-ViP：基于预训练图文模型的视频语言表示对齐

通过对数据规模和语言源域差异的研究，本文提出了一种基于 CLIP 的 OmniSource 跨模态学习方法，称为 CLIP-ViP，通过视频代理机制改进后续预训练 CLIP，从而实现显著提高视频 - 文本检索的性能。该方法在多个数据集上均取得了 SOTA 结果。

Sep, 2022

使用语言改写改善 CLIP 训练

本文提出了一种名为 LaCLIP 的新方法，通过语言重写增强 CLIP 的训练，具有语料丰富度高的特点，不需要额外的计算或内存负载，实现较高的图像 - 文本转移性能。

May, 2023

CLIP 也可以理解文本：通过提示进行短语理解

本篇研究发现，使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器，能够更好地实现短语的理解，甚至能够在正确的提示下，显著优于流行的语言模型，有效地提升实体聚类和扩展任务的效果。

Oct, 2022