使用最难和半难负对挖掘的视觉 - 文本关联在人物搜索中的应用

Dec, 2019

使用最难和半难负对挖掘的视觉 - 文本关联在人物搜索中的应用

Visual-Textual Association with Hardest and Semi-Hard Negative Pairs Mining for Person Search

Jing Ge, Guangyu Gao, Zhen Liu

TL;DR提出了一种采用视觉和文本注意力、交叉模态最难和半硬负对挖掘的新型视觉文本关联方法，通过在 CUHK-PEDES 数据集上的广泛实验，实现了 55.32% 的 top1 得分，成为了新的最先进方法。同时，在 COCO 字幕数据集上评估了半硬匹配挖掘方法，并验证了方法的有效性和互补性。

Abstract

Searching persons in large-scale image databases with the query of natural language description is a more practical important applications in video surveillance. Intuitively, for person search, the core issue should be

person search visual-textual association negative pairs visual and textual attention semi-hard pair mining

发现论文，激发创造

双模态注意力增强的文本 - 视频检索与三元局部对比学习

通过改进对比学习方法，引入新的技术，分别利用文本和视觉线索，从中挖掘出困难负样例，并且能够自适应地确定它们对训练损失的影响；同时，通过构建部分有序三元组样本来模拟细粒度语义相似性，以提高文本 - 视频检索的性能。

Sep, 2023

自然语言描述的人员搜索

本论文提出一种基于自然语言描述的人物搜索方法，利用 CUHK Person Description Dataset 建立了人物描述与样本的对应关系，并使用一种基于 Gated Neural Attention 机制的循环神经网络，实现了在人物搜索中的最优性能。

Feb, 2017

渐进特征挖掘与外部知识辅助的文本行人图像检索

该论文提出了一种渐进特征挖掘和外部知识辅助特征净化方法，用于解决文本 - 行人图像检索中的文本多样性和模态差异问题，实验证明该方法的有效性和优越性。

Aug, 2023

学习文本人物搜索的语义对齐特征表示

本文提出了一种基于语义对齐的嵌入方法，采用多头注意力模块和特征聚合网络进行特征对齐，以实现对于文本描述的行人图像搜索，并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。

Dec, 2021

VSE++：使用硬负例改进视觉 - 语义嵌入

利用视觉 - 语义嵌入的新技术进行跨模态检索，通过采用 hard negative mining，结构化预测中的 hard negatives 和排名损失函数的结合，对多模态嵌入的常见损失函数进行简单改变，在微调和使用增强数据的情况下获得了显著的检索性能提升。作者在 MS-COCO 和 Flickr30K 数据集中展示了他们的方法 VSE ++，并使用消融研究和与现有方法的比较。在 MS-COCO 的图像和标题检索中，他们的方法在 R@1 上比现有技术方法分别提高了 11.3％和 8.8％。

Jul, 2017

文本到图像的跨模态自适应双重关联

本文提出了 CADA：交叉模态自适应双向关联机制，通过文本到图像和图像到文本的双向关联来实现文本到图像的人物再识别，实验证明了该双向关联机制的优越性。

Dec, 2023

以精细化理解带来更丰富的视野：基于隐含模态对文本人物检索的对齐

本研究提出了一种隐式视觉 - 文本框架，通过多级和双向遮罩建模方法实现跨模态匹配，提高了人物的文本检索效果。

Aug, 2022

基于姿态引导的多粒度注意力网络用于基于文本的人物搜索

该研究提出了一种基于文本描述搜索人物图像的方法，通过使用多层次的视觉内容对不同语义相关性的相关图像和描述进行匹配，其中包括了多粒度的视觉信息。在 CUHK-PEDES 数据集上进行的实验表明，该方法在 top-1 指标上比现有方法高出 15％。

Sep, 2018

保持语义领域对稳健跨模态检索的影响

本篇研究提出了一种方法，使用特定的 loss 函数，在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同，并改进了基线模型，以实现跨模态检索。

Jul, 2020

带有实例损失的双路径卷积图像 - 文本嵌入

本文提出了一种新的系统，以区分性地嵌入图像和文本到共享的视觉 - 文本空间，通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题，并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度，同时在基于语言的人员检索中取得了很大的改进。

Nov, 2017