Dec, 2023

基于 CLIP 的提示视觉语言融合的行人属性识别

TL;DR将行人属性识别问题(PAR)构建为视觉语言融合问题,充分利用行人图像与属性标签之间的关系,在特征嵌入方面采用预训练的视觉 - 语言模型 CLIP 作为骨干网络,并通过对比学习目标和 Transformer 层来捕捉像素之间的远程关系,最后采用多模态 Transformer 有效地融合双重特征并使用前馈网络来预测属性。该算法在 PAR 领域中取得了最新的最优结果。