CVPR 2023 第一届基础模型挑战赛 - Track2 的解决方案

Mar, 2024

CVPR 2023 第一届基础模型挑战赛 - Track2 的解决方案

The Solution for the CVPR 2023 1st foundation model challenge-Track2

Haonan Xu, Yurui Huang, Sishun Pan, Zhihao Guan, Yi Xu...

TL;DR本文提出了一种解决跨模态交通检索问题的方法，将问题分为行人检索和车辆检索两个子任务，并分别采用 IRRA 和 BLIP 作为基础模型，同时引入属性分类和基于属性的目标检测技术来增强图像和文本之间的对齐，取得了 70.9 的排名。

Abstract

In this paper, we propose a solution for cross-modal transportation retrieval. Due to the cross-domain problem of traffic images, we divide the problem into two sub-tasks of pedestrian retrieval and vehicle retrieval

cross-modal transportation retrieval pedestrian retrieval vehicle retrieval inclusion relation matching attribute-based object detection

发现论文，激发创造

文本到图像的跨模态隐含关系推理和对齐的人物检索

研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。

Mar, 2023

自然语言驱动的车辆检索中连接语言与视觉

本研究使用基于语言描述的车辆搜索来探索其在实际场景中的潜力，结合最先进的视觉模型和基于 Transformer 的语言模型，重新审视了网络结构设计、训练策略和优化目标，实验结果显示出了优越的性能，并希望为未来车辆检索系统的研究铺平道路。

May, 2021

从多模态信息指导中学习可转移的行人表示

本文提出了一种学习可迁移表示以增强各种行人分析任务的新框架 VAL-PAT，并介绍了三个学习目标：自监督对比学习、图像文本对比学习和多属性分类。该框架在无标签人员图像的预训练下实现了良好的性能，并扩展到各种行人分析任务。

Apr, 2023

基于 CLIP 的提示视觉语言融合的行人属性识别

将行人属性识别问题（PAR）构建为视觉语言融合问题，充分利用行人图像与属性标签之间的关系，在特征嵌入方面采用预训练的视觉 - 语言模型 CLIP 作为骨干网络，并通过对比学习目标和 Transformer 层来捕捉像素之间的远程关系，最后采用多模态 Transformer 有效地融合双重特征并使用前馈网络来预测属性。该算法在 PAR 领域中取得了最新的最优结果。

Dec, 2023

通过上下文和相关性的联合循环学习进行属性识别

本文使用 Joint Recurrent Learning 模型来探索属性上下文和相关性，以提高在训练数据较少，图像质量差的情况下的属性识别，并展示了该模型在 PETA 和 RAP 两个最大的行人属性基准上的优越性能和鲁棒性。

Sep, 2017

车辆再识别的强基线

本文提出了一种针对第五届 AI 城市挑战赛数据集 Track 2 的车辆识别方法，包括缩小真实与合成数据之间的域间差距、通过堆叠多个具有注意力机制的网络头进行网络修改、自适应损失权重调整等。该方法在不使用外部数据集或伪标签的情况下，在私人 CityFlow 测试集上实现 61.34％的 mAP，并在 Veri 基准测试中以 87.1％的 mAP 超越了所有先前的工作。

Apr, 2021

渐进特征挖掘与外部知识辅助的文本行人图像检索

该论文提出了一种渐进特征挖掘和外部知识辅助特征净化方法，用于解决文本 - 行人图像检索中的文本多样性和模态差异问题，实验证明该方法的有效性和优越性。

Aug, 2023

基于 CLIP 引导的视觉 - 文本融合变压器的视频行人属性识别学习

本研究提出了一种基于视频帧的行人属性识别方法，将视觉和语言信息融合，使用 CLIP 模型进行特征提取和语言嵌入，通过多模态交互学习实现行人属性预测。

Apr, 2023

基于时空侧调整预训练基础模型的视频行人属性识别

利用视频帧进行行人属性识别，通过精调预训练的多模态基础模型充分利用时间信息，采用视觉 - 语言融合策略和时空调参策略实现参数高效优化，通过多模态交互学习实现行人属性预测。

Apr, 2024

基于时间注意力机制的视频行人属性识别方法

本研究提出了一种基于视频的多任务模型与时间注意策略相结合的新网络结构，解决行人属性识别方面的挑战。同时，本文还公开发布了两个新的大规模视频数据集，用于展示该方法的有效性。

Jan, 2019