基于 CLIP 的细粒度文本图像人员再识别

Oct, 2022

基于 CLIP 的细粒度文本图像人员再识别

CLIP-Driven Fine-grained Text-Image Person Re-identification

Shuanglin Yan, Neng Dong, Liyan Zhang, Jinhui Tang

TL;DR提出了一种基于 CLIP 驱动的细粒度信息挖掘框架 (CFine)，旨在为 TIReID 提供强大的多模态知识，通过细粒度信息挖掘，建立跨模态对齐，并在多个基准测试上显示了其优越的性能。

Abstract

tireid aims to retrieve the image corresponding to the given text query from a pool of candidate images. Existing methods employ prior knowledge from single-modality pre-training to facilitate learning, but lack multi-modal correspondences. Besides, due to the substantial gap between m

tireid clip fine-grained information excavation multi-modal knowledge cross-modal alignment

发现论文，激发创造

文本与图像人物再识别的提示解耦

这篇论文主要研究了使用文本描述查询来进行图像中的人物重识别，并提出了一种两阶段训练方法，通过解耦域适应和任务适应的过程来改善性能。

Jan, 2024

TF-CLIP: 学习无须文本的 CLIP 用于基于视频的人物重新识别

提出了一种基于 CLIP 的无文本学习框架，用于基于视频的人员重新识别，通过提取身份特定的序列特征作为 CLIP-Memory，并使用 SSP 模块在线更新 CLIP-Memory，进一步通过 TMD 模块捕获时间信息，取得了比其他最先进方法更好的结果。

Dec, 2023

高效且有效的文本到视频检索：基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近 50 倍。

Jan, 2024

基于 CLIP 的可见光 - 红外人员再识别的语义发现网络

可见 - 红外人员再识别（VIReID）主要处理来自不同模态的人员图像之间的身份匹配，并通过融合高级语义与视觉特征来弥合模态差距。我们提出了一个基于 CLIP 的语义发现网络（CSDN），通过多模态学习的文本标记和集成文本特征来嵌入丰富的高级语义信息，从而促进了视觉特征的模态不变性。在多个常用基准测试上的实验评估证实了我们提出的 CSDN 方法的有效性和优越性。

Jan, 2024

使用 CLIP 奖励的细粒度图像字幕生成

本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题，同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势，并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。

May, 2022

优化过的 CLIP 模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调 CLIP 模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

文本到图像的人物重识别的噪声一致化学习

提出了一种用于文本到图像的人物再识别的鲁棒双重嵌入方法 (RDE)，能够学习到在存在噪音对应的情况下的可靠的视觉语义关联。

Aug, 2023

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023

基于 CLIP 的服装无关特征学习与人物换衣再识别

提出了一种名为 CLIP-Driven Cloth-Agnostic Feature Learning (CCAF) 的新颖框架，用于解决 Cloth-Changing Person Re-Identification (CC-ReID) 中 Contrastive Language-Image Pre-Training (CLIP) 过度关注衣物线索的问题，在多个流行的 CC-ReID 基准测试上取得了新的最先进性能，而无需额外的推理时间。

Jun, 2024

CPCL：跨模态原型对比学习弱监督的基于文本的人员再识别

提出了一种基于弱监督的文本驱动的人物重识别方法，使用跨模态原型对比学习和多模态记忆模块来改善检索性能。

Jan, 2024