CVPRApr, 2023
基于 CLIP 引导的视觉 - 文本融合变压器的视频行人属性识别学习
Learning CLIP Guided Visual-Text Fusion Transformer for Video-based Pedestrian Attribute Recognition
Jun Zhu, Jiandong Jin, Zihan Yang, Xiaohao Wu, Xiao Wang
TL;DR本研究提出了一种基于视频帧的行人属性识别方法,将视觉和语言信息融合,使用 CLIP 模型进行特征提取和语言嵌入,通过多模态交互学习实现行人属性预测。