CVPRApr, 2023

基于 CLIP 引导的视觉 - 文本融合变压器的视频行人属性识别学习

TL;DR本研究提出了一种基于视频帧的行人属性识别方法,将视觉和语言信息融合,使用 CLIP 模型进行特征提取和语言嵌入,通过多模态交互学习实现行人属性预测。