AAAINov, 2022

CLIP-ReID: 充分利用视觉 - 语言模型进行图像重新识别,无需具体文本标签

TL;DR本文提出了一种利用 CLIP 模型的文本 - 图像交互能力来解决细粒度图像重识别问题的方法,通过对学习的文本编码器给出模糊的文本描述来增强视觉表示,并通过一系列基于对比度损失的优化训练来优化文本令牌。