基于典型对比学习的 CLIP 微调方法用于物体重新识别

Oct, 2023

基于典型对比学习的 CLIP 微调方法用于物体重新识别

Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification

Jiachen Li, Xiaojin Gong

TL;DR這項研究旨在將大規模預先訓練的視覺語言模型，如對比語言 - 圖像預訓練（CLIP），適應各種監督設置下物體再識別（Re-ID）的表現提升。在本研究中，我們首先分析了 CLIP-ReID 中 prompt learning 的作用並確認了其限制。基於我們的調查，我們提出了一種簡單而有效的方法，通過使用原型對比學習（PCL）損失直接微調 CLIP 的圖像編碼器，從而消除了 prompt learning 的需要。在人物和車輛 Re-ID 數據集上的實驗結果證明了我們的方法與 CLIP-ReID 的競爭力。此外，我們將基於 PCL 的 CLIP 微調方法擴展到無監督場景，達到了最新的表現。

Abstract

This work aims to adapt large-scale pre-trained vision-language models, such as contrastive language-image pretraining (CLIP), to enhance the performance of →

large-scale pre-trained vision-language models contrastive language-image pretraining object reidentification prompt learning prototypical contrastive learning

发现论文，激发创造

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

CLIP-ReID: 充分利用视觉 - 语言模型进行图像重新识别，无需具体文本标签

本文提出了一种利用 CLIP 模型的文本 - 图像交互能力来解决细粒度图像重识别问题的方法，通过对学习的文本编码器给出模糊的文本描述来增强视觉表示，并通过一系列基于对比度损失的优化训练来优化文本令牌。

Nov, 2022

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

文本与图像人物再识别的提示解耦

这篇论文主要研究了使用文本描述查询来进行图像中的人物重识别，并提出了一种两阶段训练方法，通过解耦域适应和任务适应的过程来改善性能。

Jan, 2024

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

使用 CLIP 奖励的细粒度图像字幕生成

本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题，同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势，并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。

May, 2022

无需进一步训练即可将 CLIP 用于短语定位

利用对比语言 - 视觉模型 CLIP，我们可以实现无需人工注释或额外训练的短语定位方法，其零样本短语定位性能优于现有无训练方法，并在某些情况下甚至超过了有监督的方法。

Apr, 2022

语义残差指令用于持续学习

通过在 Continual Learning 中引入 Prompt-tuning 方法，以更稳定的选择策略和适应机制，提出了一种能够优于最先进的方法的新模型，即使在与预训练模型存在显著领域差异的数据集上也适用。

Mar, 2024

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021