基于文本的有限数据人物搜索
本文提出了一种基于生成 - 检索(GTR)框架的文本搜索人物图像方法(TBPS),其中通过细粒度图像字幕和噪声评分训练来生成人物图像的伪文本,实现了不需要并行图像 - 文本数据的高效搜索。实验表明,所提出的方法在多个 TBPS 基准(即 CUHK-PEDES、ICFG-PEDES 和 RSTPReid)上具有很好的性能。
May, 2023
基于图像标注数据有限的半监督框架下,该论文提出了一个两阶段的基本解决方案,其中生成阶段利用图像字幕模型为未标注图片生成伪文本,检索阶段则使用增广数据进行完全监督的检索学习。而引入了噪声干扰的伪文本的框架,则提出了一个增强检索模型处理噪声数据能力的噪声鲁棒检索框架。该框架结合了混合 Patch-Channel 掩蔽和噪声引导渐进式训练两个关键策略,以防止过度拟合噪声监督,并根据伪文本的噪声水平引入渐进式训练进程。在多个 TBPS 基准测试上的广泛实验表明,该框架在半监督设置下取得了可观的性能。
Apr, 2024
提出了一种简单而有效的双变压器模型用于基于文本的人物搜索,通过利用一种感知困难的对比学习策略,自动生成更多多样化的数据以改善数据不足问题,实验结果显示该方法在文本与图像之间的横向检索任务中明显优于其他方法。
Nov, 2023
基于 Contrastive Language Image Pretraining 的 TBPS 模型设计及研究,提供对 CLIP-based TBPS 任务的全面实证研究以及一个强大的 TBPS-CLIP 基准模型。
Aug, 2023
通过使用文本信息从未裁剪的场景图像中同时定位和识别目标人物的文本搜索,我们提出了一个大规模基准数据集 PRW-TPS-CN,该数据集包含 47,102 个句子,与现有数据集相比提供了更多的信息,同时提供中文和英文描述,旨在减轻人物检测和基于文本的人物检索之间的不一致,并通过聚合多个文本作为文本原型来生成图像注意力图,以消除检测不一致导致的文本检索减少,实验证明了我们方法的最新性能和 PRW-TPS-CN 数据集的有效性。
Dec, 2023
通过提出一种视觉引导的语义组网络 (VGSG),本文针对基于文本的人物搜索 (TBPS) 问题,在引导的视觉线索下提取了对齐良好的细粒度视觉和文本特征,并设计了一种关系性知识传递方法来适应地传播信息从而在无需外部工具和复杂配对交互的情况下将语义组文本特征与相应的视觉特征进行对齐,该方法在两个具有挑战性的基准测试中展现了优越性。
Nov, 2023
使用 CLIP 的协同知识转移方法 (CLIP-based Synergistic Knowledge Transfer) 提出了文本检索任务 (Text-based Person Retrieval) 的新方法,该方法通过 Bidirectional Prompts Transferring (BPT) 模块和 Dual Adapters Transferring (DAT) 机制实现了在视觉和语言方向上的知识转移,提高了特征融合和模型泛化效果。
Sep, 2023
本论文提出一种基于端到端学习的文字搜索人物图像的框架,命名为 TIPCB,采用新颖的双路局部匹配网络结构并提出多阶段的跨模态匹配策略,消除了低层、局部层和全局层三个特征层次上的模态差距,实现了对 CUHK-PEDES 数据集精准的 Top-1、Top-5 和 Top-10 搜索结果,优于当前最先进的方法。
May, 2021
提出了一种用于文本到图像人物检索的新框架,旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器,以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失,该方法在三个流行的基准数据集上取得了最先进的结果。
Jul, 2023
本研究提出了一种新的任务称为 Text-to-Video Person Retrieval (TVPR),并构建了一个包含自然语言注释的大规模跨模态人员视频数据集 (TVPReid),利用 Bert 获取字幕表示并研究字幕与视频表示之间的关系以揭示最相关的个人视频,并基于融合视觉和运动表示为基础进行视频表示,并提出了一个 TVPR 网络来解决人员在孤立帧中模糊或遗漏变量运动细节的挑战,获得了 TVPRN 在 TVPReid 数据集上的最佳性能表现。
Jul, 2023