基於豐富的中文描述的原型引導型基於文本的人物檢索

Dec, 2023

基於豐富的中文描述的原型引導型基於文本的人物檢索

Prototype-Guided Text-based Person Search based on Rich Chinese Descriptions

Ziqiang Wu, Bingpeng Ma

TL;DR通过使用文本信息从未裁剪的场景图像中同时定位和识别目标人物的文本搜索，我们提出了一个大规模基准数据集 PRW-TPS-CN，该数据集包含 47,102 个句子，与现有数据集相比提供了更多的信息，同时提供中文和英文描述，旨在减轻人物检测和基于文本的人物检索之间的不一致，并通过聚合多个文本作为文本原型来生成图像注意力图，以消除检测不一致导致的文本检索减少，实验证明了我们方法的最新性能和 PRW-TPS-CN 数据集的有效性。

Abstract

text-based person search aims to simultaneously localize and identify the target person based on query text from uncropped scene images, which can be regarded as the unified task of person detection and text-base

text-based person search person detection text-based person retrieval benchmark dataset image attention map

发现论文，激发创造

无需平行图像 - 文本数据的基于文本的人物搜索

本文提出了一种基于生成 - 检索（GTR）框架的文本搜索人物图像方法（TBPS），其中通过细粒度图像字幕和噪声评分训练来生成人物图像的伪文本，实现了不需要并行图像 - 文本数据的高效搜索。实验表明，所提出的方法在多个 TBPS 基准（即 CUHK-PEDES、ICFG-PEDES 和 RSTPReid）上具有很好的性能。

May, 2023

半监督文本式人物搜索

基于图像标注数据有限的半监督框架下，该论文提出了一个两阶段的基本解决方案，其中生成阶段利用图像字幕模型为未标注图片生成伪文本，检索阶段则使用增广数据进行完全监督的检索学习。而引入了噪声干扰的伪文本的框架，则提出了一个增强检索模型处理噪声数据能力的噪声鲁棒检索框架。该框架结合了混合 Patch-Channel 掩蔽和噪声引导渐进式训练两个关键策略，以防止过度拟合噪声监督，并根据伪文本的噪声水平引入渐进式训练进程。在多个 TBPS 基准测试上的广泛实验表明，该框架在半监督设置下取得了可观的性能。

Apr, 2024

基于文本的有限数据人物搜索

本文提出了一种框架，利用跨模态动量对比学习和转移学习方法，来解决限定数据所带来的问题，进一步提高了图像库中针对性描述查询的效率，并在 CUHK-PEDES 数据集上达到了新的最高表现。

Oct, 2021

自然语言描述的人员搜索

本论文提出一种基于自然语言描述的人物搜索方法，利用 CUHK Person Description Dataset 建立了人物描述与样本的对应关系，并使用一种基于 Gated Neural Attention 机制的循环神经网络，实现了在人物搜索中的最优性能。

Feb, 2017

基于对比变压器学习的近距离数据生成的基于文本的人物搜索

提出了一种简单而有效的双变压器模型用于基于文本的人物搜索，通过利用一种感知困难的对比学习策略，自动生成更多多样化的数据以改善数据不足问题，实验结果显示该方法在文本与图像之间的横向检索任务中明显优于其他方法。

Nov, 2023

文本到视频人物检索与一个新基准

本研究提出了一种新的任务称为 Text-to-Video Person Retrieval (TVPR)，并构建了一个包含自然语言注释的大规模跨模态人员视频数据集 (TVPReid)，利用 Bert 获取字幕表示并研究字幕与视频表示之间的关系以揭示最相关的个人视频，并基于融合视觉和运动表示为基础进行视频表示，并提出了一个 TVPR 网络来解决人员在孤立帧中模糊或遗漏变量运动细节的挑战，获得了 TVPRN 在 TVPReid 数据集上的最佳性能表现。

Jul, 2023

零样本组合人物检索

提出了一种新的任务，称为组合人员检索（CPR），通过整合图像和文本信息实现目标人员的检索；通过 Zero-shot Composed Person Retrieval（ZS-CPR）方法，利用现有领域相关数据解决了高代价手动注释数据资源的问题；通过 Word4Per 框架，学习了轻量级的文本逆转网络（TINet）和基于微调的对比语言 - 图像预训练网络（CLIP）的基于文本的人员检索模型，构建了一个精细注释的图像 - 文本组合人员检索数据集（ITCPR），并在 Rank-1 和 mAP 指标下的大量实验中证明了 Word4Per 在 ZS-CPR 任务上的有效性，超过比较方法 10% 以上的性能。

Nov, 2023

TIPCB：一种简单而有效的基于部件的卷积基线用于基于文本的人员搜索

本论文提出一种基于端到端学习的文字搜索人物图像的框架，命名为 TIPCB，采用新颖的双路局部匹配网络结构并提出多阶段的跨模态匹配策略，消除了低层、局部层和全局层三个特征层次上的模态差距，实现了对 CUHK-PEDES 数据集精准的 Top-1、Top-5 和 Top-10 搜索结果，优于当前最先进的方法。

May, 2021

基于姿态引导的多粒度注意力网络用于基于文本的人物搜索

该研究提出了一种基于文本描述搜索人物图像的方法，通过使用多层次的视觉内容对不同语义相关性的相关图像和描述进行匹配，其中包括了多粒度的视觉信息。在 CUHK-PEDES 数据集上进行的实验表明，该方法在 top-1 指标上比现有方法高出 15％。

Sep, 2018

学习文本人物搜索的语义对齐特征表示

本文提出了一种基于语义对齐的嵌入方法，采用多头注意力模块和特征聚合网络进行特征对齐，以实现对于文本描述的行人图像搜索，并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。

Dec, 2021