视觉和语言的人物再识别

Oct, 2017

Person Re-Identification with Vision and Language

Fei Yan, Krystian Mikolajczyk, Josef Kittler

TL;DR我们提出了一种新的人员再识别方法，使用图像和自然语言描述的联合视觉和语言模型，相比属性和 LSTM，使用自然语言描述和 CNN 可以显著提高标准 Re-ID 基准测试的性能。

Abstract

In this paper we propose a new approach to person re-identification using images and natural language descriptions. We propose a joint vision and language model based on CCA and CNN architectures to match across

person re-identification vision and language model natural language descriptions cuhk03 viper

发现论文，激发创造

通过全局和本地图像 - 语言关联改进个体重新识别的深度视觉表示

本研究提出了一种利用自然语言描述作为附加训练监督的方法来有效地学习视觉特征。通过建立全局和局部图像 - 语言关联来实现语义一致性，该方法不仅能够学习更好的全局视觉特征，还能够强制对局部视觉和语言特征进行语义一致性的限制，从而实现了对于特定个体较为紧凑和语义的描述。在实验中，我们证明了语言作为训练监督在两种关联方案下具有有效性，并且在不使用任何辅助信息的情况下实现了最新的技术性能，比其他图像 - 语言交互的联合嵌入方法表现更出色。

Aug, 2018

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

自然语言描述的人员搜索

本论文提出一种基于自然语言描述的人物搜索方法，利用 CUHK Person Description Dataset 建立了人物描述与样本的对应关系，并使用一种基于 Gated Neural Attention 机制的循环神经网络，实现了在人物搜索中的最优性能。

Feb, 2017

检索任何人：一项带指导的通用人员再识别任务

本文提出了一种新的人物 ReID 任务，即 instruct-ReID，该任务要求根据给定的图像或语言指令检索图像，提出了一个基于大规模 OmniReID 基准数据集和自适应三元组损失的基线方法来促进在这个新场景下的研究，实验结果表明，基于该 benchmark 训练的基线模型可以提高市场 1501 和 CUHK03 的传统 ReID 上的 mAP，各种衣服变化 ReID 上的 mAP，并在语言指导的 ReID 上进一步提高。

Jun, 2023

一种新的基于视觉词共现的人物再识别模型

本研究提出了一种基于视觉单词共现模型的个人再识别方法，该方法将图像像素映射到视觉单词上，并使用共现矩阵来编码探针和库图像中的视觉单词的联合分布，通过使用线性 SVM 分类器来训练这些共现描述符，以应对不同摄像头视角下的外观变化，实验表明该方法在 VIPeR 和 CUHK Campus 数据集中可以取得比最先进的结果分别高 10.44％和 22.27％的 rank-15 性能

Oct, 2014

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

人物再识别的判别式学习卷积神经网络嵌入

本文旨在探讨如何将卷积神经网络的不同特性相融合，提高行人识别任务中的性能，并提出了一个新型的任务学习框架，取得了当前公开基准数据集上的最佳表现，并且还证明了这个框架能够适用于图像检索任务。

Nov, 2016

深度联合学习多损失分类的个体重识别

本文提出了一种使用 CNN 联合学习局部和全局特征的方法，用于重新识别目标，实现了对多任务的优化，通过优化多任务的联合损失函数，达到一种损失函数的平衡，该模型在 VIPeR、GRID、CUHK01、CUHK03 和 Market-1501 的五个基准测试中优于现有的各种重新识别方法。

May, 2017

CLIP-ReID: 充分利用视觉 - 语言模型进行图像重新识别，无需具体文本标签

本文提出了一种利用 CLIP 模型的文本 - 图像交互能力来解决细粒度图像重识别问题的方法，通过对学习的文本编码器给出模糊的文本描述来增强视觉表示，并通过一系列基于对比度损失的优化训练来优化文本令牌。

Nov, 2022

基于注意力机制的自然语言人物检索

本文提出了一个基于注意力机制的自然语言人物检索系统，并成功应用于监控视频检索领域中，该系统使用了 Faster R-CNN 中的候选区域生成器来提取视觉特征，并利用 BLSTM 模型进行文本特征提取，将其融合后进行得分，可以更加精确地检索到所需的目标。

May, 2017