基于 CLIP 的提示视觉语言融合的行人属性识别

Dec, 2023

基于 CLIP 的提示视觉语言融合的行人属性识别

Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion

Xiao Wang, Jiandong Jin, Chenglong Li, Jin Tang, Cheng Zhang...

TL;DR将行人属性识别问题（PAR）构建为视觉语言融合问题，充分利用行人图像与属性标签之间的关系，在特征嵌入方面采用预训练的视觉 - 语言模型 CLIP 作为骨干网络，并通过对比学习目标和 Transformer 层来捕捉像素之间的远程关系，最后采用多模态 Transformer 有效地融合双重特征并使用前馈网络来预测属性。该算法在 PAR 领域中取得了最新的最优结果。

Abstract

Existing pedestrian attribute recognition (PAR) algorithms adopt pre-trained cnn (e.g., ResNet) as their backbone network for visual feature learning, which might obtain sub-optimal results due to the insufficien

pedestrian attribute recognition cnn vision-language fusion clip multi-modal transformer

发现论文，激发创造

基于 CLIP 引导的视觉 - 文本融合变压器的视频行人属性识别学习

本研究提出了一种基于视频帧的行人属性识别方法，将视觉和语言信息融合，使用 CLIP 模型进行特征提取和语言嵌入，通过多模态交互学习实现行人属性预测。

Apr, 2023

基于时空侧调整预训练基础模型的视频行人属性识别

利用视频帧进行行人属性识别，通过精调预训练的多模态基础模型充分利用时间信息，采用视觉 - 语言融合策略和时空调参策略实现参数高效优化，通过多模态交互学习实现行人属性预测。

Apr, 2024

SequencePAR: 通过序列生成范例理解行人属性

基于 CLIP 模型的预训练特征提取和序列生成模式，提出一种新的行人属性识别方法 SequencePAR，利用生成模型更好地建模人体属性之间的依赖和复杂性，有效通过多个数据集实验证明了该方法的有效性。

Dec, 2023

基于 Transformer 的行人属性识别多任务网络 PARFormer

本研究提出了一种纯 transformer 的多任务行人属性识别网络，名为 PARFormer，其中包含 4 个模块：特征提取模块、特征处理模块、视点感知模块和属性识别模块，实现了竞争性的性能表现，并强调全局视角的重要性。

Apr, 2023

视觉 - 语言模型的多模态特征提示

我们提出了一种多模态属性提示方法（MAP），通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型（VLMs）在少样本情况下的一些局限性，实验结果表明我们的方法在 11 个数据集上表现优于现有方法。

Mar, 2024

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021

CLIP 轻量级语义分割

通过引入一个新的特征融合模块，本研究提出了一种解决使用轻量级网络的语言引导范式的方法，该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐，并展示出优于之前的最佳方法的性能。

Oct, 2023

行人属性识别：一份调查

介绍了现有的人行属性识别方法，包括传统方法和基于深度学习网络的方法，同时分析了多种学习算法和网络架构，总结出可行的研究方向，并给出实验结果的性能评估。

Jan, 2019

具有预训练视觉语言模型的类别增量学习

通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层，我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法，从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外，我们还提出了一种参数保留的方法，通过衡量参数重要性，在增量学习过程中更好地保持稳定性和可塑性。实验证明，最简单的解决方案 —— 一个具有参数保留的线性适配器层，获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。

Oct, 2023

通过适应预训练视觉语言模型进行异常检测

我们提出了一个统一的框架 CLIP-ADA 用于通过适应预训练 CLIP 模型进行异常检测，在这个框架中，我们通过引入可学习的提示，并通过自监督学习将其与异常模式关联起来，从而获得多类别工业图像上的统一异常检测，并且通过引入异常区域细化策略来充分利用 CLIP 的表示能力来提高定位质量，我们的框架在 MVTec-AD 和 VisA 上取得了 97.5/55.6 和 89.3/33.1 的最新成果，以及在极小的训练数据下取得了令人鼓舞的性能，这更具挑战性。

Mar, 2024