CVPR 2023 第一届基础模型挑战赛 - Track2 的解决方案
本研究使用基于语言描述的车辆搜索来探索其在实际场景中的潜力,结合最先进的视觉模型和基于 Transformer 的语言模型,重新审视了网络结构设计、训练策略和优化目标,实验结果显示出了优越的性能,并希望为未来车辆检索系统的研究铺平道路。
May, 2021
本文提出了一种学习可迁移表示以增强各种行人分析任务的新框架 VAL-PAT,并介绍了三个学习目标:自监督对比学习、图像文本对比学习和多属性分类。该框架在无标签人员图像的预训练下实现了良好的性能,并扩展到各种行人分析任务。
Apr, 2023
将行人属性识别问题(PAR)构建为视觉语言融合问题,充分利用行人图像与属性标签之间的关系,在特征嵌入方面采用预训练的视觉 - 语言模型 CLIP 作为骨干网络,并通过对比学习目标和 Transformer 层来捕捉像素之间的远程关系,最后采用多模态 Transformer 有效地融合双重特征并使用前馈网络来预测属性。该算法在 PAR 领域中取得了最新的最优结果。
Dec, 2023
本文使用 Joint Recurrent Learning 模型来探索属性上下文和相关性,以提高在训练数据较少,图像质量差的情况下的属性识别,并展示了该模型在 PETA 和 RAP 两个最大的行人属性基准上的优越性能和鲁棒性。
Sep, 2017
本文提出了一种针对第五届 AI 城市挑战赛数据集 Track 2 的车辆识别方法,包括缩小真实与合成数据之间的域间差距、通过堆叠多个具有注意力机制的网络头进行网络修改、自适应损失权重调整等。该方法在不使用外部数据集或伪标签的情况下,在私人 CityFlow 测试集上实现 61.34%的 mAP,并在 Veri 基准测试中以 87.1%的 mAP 超越了所有先前的工作。
Apr, 2021
该论文提出了一种渐进特征挖掘和外部知识辅助特征净化方法,用于解决文本 - 行人图像检索中的文本多样性和模态差异问题,实验证明该方法的有效性和优越性。
Aug, 2023
本研究提出了一种基于视频帧的行人属性识别方法,将视觉和语言信息融合,使用 CLIP 模型进行特征提取和语言嵌入,通过多模态交互学习实现行人属性预测。
Apr, 2023
利用视频帧进行行人属性识别,通过精调预训练的多模态基础模型充分利用时间信息,采用视觉 - 语言融合策略和时空调参策略实现参数高效优化,通过多模态交互学习实现行人属性预测。
Apr, 2024
本研究提出了一种基于视频的多任务模型与时间注意策略相结合的新网络结构,解决行人属性识别方面的挑战。同时,本文还公开发布了两个新的大规模视频数据集,用于展示该方法的有效性。
Jan, 2019