- LAIP: 从图像短语建模中学习本地对齐以用于基于文本的人物搜索
本篇论文提出了基于图像 - 短语建模的本地对齐(LAIP)框架,其中包括双向注意力加权本地对齐(BidirAtt)和掩码短语建模(MPM)模块。实验证明,LAIP 框架在 CUHK-PEDES、ICFG-PEDES 和 RSTPReid 数 - 半监督文本式人物搜索
基于图像标注数据有限的半监督框架下,该论文提出了一个两阶段的基本解决方案,其中生成阶段利用图像字幕模型为未标注图片生成伪文本,检索阶段则使用增广数据进行完全监督的检索学习。而引入了噪声干扰的伪文本的框架,则提出了一个增强检索模型处理噪声数据 - 从数据洪流到数据筛选:高效文本人物搜索的过滤 - 增加权重逻辑
通过引入过滤算法和加权低秩适应策略(WoRA learning strategy)来识别构建数据集中的关键数据子集并进行轻量级微调,我们在基于文本的人员搜索任务中实现了高效的训练和检索性能。
- 基於豐富的中文描述的原型引導型基於文本的人物檢索
通过使用文本信息从未裁剪的场景图像中同时定位和识别目标人物的文本搜索,我们提出了一个大规模基准数据集 PRW-TPS-CN,该数据集包含 47,102 个句子,与现有数据集相比提供了更多的信息,同时提供中文和英文描述,旨在减轻人物检测和基于 - 基于对比变压器学习的近距离数据生成的基于文本的人物搜索
提出了一种简单而有效的双变压器模型用于基于文本的人物搜索,通过利用一种感知困难的对比学习策略,自动生成更多多样化的数据以改善数据不足问题,实验结果显示该方法在文本与图像之间的横向检索任务中明显优于其他方法。
- VGSG: 基于视觉引导的文本人物检索的语义组网络
通过提出一种视觉引导的语义组网络 (VGSG),本文针对基于文本的人物搜索 (TBPS) 问题,在引导的视觉线索下提取了对齐良好的细粒度视觉和文本特征,并设计了一种关系性知识传递方法来适应地传播信息从而在无需外部工具和复杂配对交互的情况下将 - 基于文本的人物搜索中 CLIP 的实证研究
基于 Contrastive Language Image Pretraining 的 TBPS 模型设计及研究,提供对 CLIP-based TBPS 任务的全面实证研究以及一个强大的 TBPS-CLIP 基准模型。
- IJCAIRaSa:基于关系和敏感性意识的面向文本人物搜索的表征学习
提出了一种多模态表示学习方法,称为关系和敏感度感知表示学习方法 RaSa,其中包括两个新任务:关系感知学习和敏感度感知学习,用于解决文本描述下的人物搜索问题,并且该方法在 CUHK-PEDES,ICFG-PEDES 和 RSTPReid 数 - 无需平行图像 - 文本数据的基于文本的人物搜索
本文提出了一种基于生成 - 检索(GTR)框架的文本搜索人物图像方法(TBPS),其中通过细粒度图像字幕和噪声评分训练来生成人物图像的伪文本,实现了不需要并行图像 - 文本数据的高效搜索。实验表明,所提出的方法在多个 TBPS 基准(即 C - 基于文本的人物搜索中的图像特定信息抑制和隐式局部对齐
本论文提出了一种有效的联合信息和语义对齐网络 (ISANet) 用于文本驱动的人物搜索,该网络能够准确定位和对齐图像和文本之间的信息,并能够适应性地聚合图像和文本特征以实现本地细粒度对应关系和全局对齐,并在多个数据库上取得了优越的性能。
- 学习文本人物搜索的语义对齐特征表示
本文提出了一种基于语义对齐的嵌入方法,采用多头注意力模块和特征聚合网络进行特征对齐,以实现对于文本描述的行人图像搜索,并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。
- 基于文本的有限数据人物搜索
本文提出了一种框架,利用跨模态动量对比学习和转移学习方法,来解决限定数据所带来的问题,进一步提高了图像库中针对性描述查询的效率,并在 CUHK-PEDES 数据集上达到了新的最高表现。
- TIPCB:一种简单而有效的基于部件的卷积基线用于基于文本的人员搜索
本论文提出一种基于端到端学习的文字搜索人物图像的框架,命名为 TIPCB,采用新颖的双路局部匹配网络结构并提出多阶段的跨模态匹配策略,消除了低层、局部层和全局层三个特征层次上的模态差距,实现了对 CUHK-PEDES 数据集精准的 Top- - IJCAI人员搜索的挑战与解决方案:一项调研
本文从图片搜索和文本搜索的视角,对人物检索中的挑战和解决方案进行了调查和分析,集中评估了三个最为重要的规模限制:判别式人物特征,查询人缺口和检测 - 识别不一致性。我们总结和比较评估结果,同时讨论未来的研究方向。
- 全尺度文本人物搜索的背景下的上下文非局部对齐
本文提出了一种名为 NAFS 的方法,能够自适应地在所有尺度上对齐图像和文本特征。该方法首先提出了一种新的阶梯型网络结构,以更好地提取全尺度的图像特征,其次,提出了一种具有局部约束注意力的 BERT 模型,用于获得不同尺度上的描述表示,然后 - AAAI基于姿态引导的多粒度注意力网络用于基于文本的人物搜索
该研究提出了一种基于文本描述搜索人物图像的方法,通过使用多层次的视觉内容对不同语义相关性的相关图像和描述进行匹配,其中包括了多粒度的视觉信息。在 CUHK-PEDES 数据集上进行的实验表明,该方法在 top-1 指标上比现有方法高出 15