基于 CLIP 引导的视觉 - 文本融合变压器的视频行人属性识别学习

CVPRApr, 2023

基于 CLIP 引导的视觉 - 文本融合变压器的视频行人属性识别学习

Learning CLIP Guided Visual-Text Fusion Transformer for Video-based Pedestrian Attribute Recognition

Jun Zhu, Jiandong Jin, Zihan Yang, Xiaohao Wu, Xiao Wang

TL;DR本研究提出了一种基于视频帧的行人属性识别方法，将视觉和语言信息融合，使用 CLIP 模型进行特征提取和语言嵌入，通过多模态交互学习实现行人属性预测。

Abstract

Existing pedestrian attribute recognition (PAR) algorithms are mainly developed based on a static image. However, the performance is not reliable for images with challenging factors, such as heavy occlusion, motion blur, etc. In this work, we propose to understand human attributes usin

pedestrian attribute recognition video-based recognition vision-language fusion clip multi-modal interactive learning

发现论文，激发创造

基于 CLIP 的提示视觉语言融合的行人属性识别

将行人属性识别问题（PAR）构建为视觉语言融合问题，充分利用行人图像与属性标签之间的关系，在特征嵌入方面采用预训练的视觉 - 语言模型 CLIP 作为骨干网络，并通过对比学习目标和 Transformer 层来捕捉像素之间的远程关系，最后采用多模态 Transformer 有效地融合双重特征并使用前馈网络来预测属性。该算法在 PAR 领域中取得了最新的最优结果。

Dec, 2023

基于时空侧调整预训练基础模型的视频行人属性识别

利用视频帧进行行人属性识别，通过精调预训练的多模态基础模型充分利用时间信息，采用视觉 - 语言融合策略和时空调参策略实现参数高效优化，通过多模态交互学习实现行人属性预测。

Apr, 2024

SequencePAR: 通过序列生成范例理解行人属性

基于 CLIP 模型的预训练特征提取和序列生成模式，提出一种新的行人属性识别方法 SequencePAR，利用生成模型更好地建模人体属性之间的依赖和复杂性，有效通过多个数据集实验证明了该方法的有效性。

Dec, 2023

基于 Transformer 的行人属性识别多任务网络 PARFormer

本研究提出了一种纯 transformer 的多任务行人属性识别网络，名为 PARFormer，其中包含 4 个模块：特征提取模块、特征处理模块、视点感知模块和属性识别模块，实现了竞争性的性能表现，并强调全局视角的重要性。

Apr, 2023

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

M2-CLIP: 视频动作识别的多模态多任务自适应框架

该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Jan, 2024

基于时间注意力机制的视频行人属性识别方法

本研究提出了一种基于视频的多任务模型与时间注意策略相结合的新网络结构，解决行人属性识别方面的挑战。同时，本文还公开发布了两个新的大规模视频数据集，用于展示该方法的有效性。

Jan, 2019

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

行人属性识别：一份调查

介绍了现有的人行属性识别方法，包括传统方法和基于深度学习网络的方法，同时分析了多种学习算法和网络架构，总结出可行的研究方向，并给出实验结果的性能评估。

Jan, 2019

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021