自然语言描述的人员搜索
本文提出了一个基于注意力机制的自然语言人物检索系统,并成功应用于监控视频检索领域中,该系统使用了 Faster R-CNN 中的候选区域生成器来提取视觉特征,并利用 BLSTM 模型进行文本特征提取,将其融合后进行得分,可以更加精确地检索到所需的目标。
May, 2017
通过使用文本信息从未裁剪的场景图像中同时定位和识别目标人物的文本搜索,我们提出了一个大规模基准数据集 PRW-TPS-CN,该数据集包含 47,102 个句子,与现有数据集相比提供了更多的信息,同时提供中文和英文描述,旨在减轻人物检测和基于文本的人物检索之间的不一致,并通过聚合多个文本作为文本原型来生成图像注意力图,以消除检测不一致导致的文本检索减少,实验证明了我们方法的最新性能和 PRW-TPS-CN 数据集的有效性。
Dec, 2023
该研究提出了一种基于文本描述搜索人物图像的方法,通过使用多层次的视觉内容对不同语义相关性的相关图像和描述进行匹配,其中包括了多粒度的视觉信息。在 CUHK-PEDES 数据集上进行的实验表明,该方法在 top-1 指标上比现有方法高出 15%。
Sep, 2018
本文从图片搜索和文本搜索的视角,对人物检索中的挑战和解决方案进行了调查和分析,集中评估了三个最为重要的规模限制:判别式人物特征,查询人缺口和检测 - 识别不一致性。我们总结和比较评估结果,同时讨论未来的研究方向。
May, 2021
我们提出了一种新的人员再识别方法,使用图像和自然语言描述的联合视觉和语言模型,相比属性和 LSTM,使用自然语言描述和 CNN 可以显著提高标准 Re-ID 基准测试的性能。
Oct, 2017
提出了一种采用视觉和文本注意力、交叉模态最难和半硬负对挖掘的新型视觉文本关联方法,通过在 CUHK-PEDES 数据集上的广泛实验,实现了 55.32% 的 top1 得分,成为了新的最先进方法。同时,在 COCO 字幕数据集上评估了半硬匹配挖掘方法,并验证了方法的有效性和互补性。
Dec, 2019
本文提出了一种基于语义对齐的嵌入方法,采用多头注意力模块和特征聚合网络进行特征对齐,以实现对于文本描述的行人图像搜索,并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。
Dec, 2021
我们探索了增强人物搜索模型的域外泛化能力,并提出了一个可推广的框架,通过引入基于多任务原型的领域特定批量归一化和通道相关的特征去相关策略来促进任意场景中的下游任务。
Oct, 2023
本文将人员再识别作为图像搜索问题,并通过设计一种无监督的词袋表示法,将图像搜索技术整合到人员再识别中。同时,贡献了一个新的高质量数据集,在三个数据集上得到了与最先进方法相当的竞争结果。
Feb, 2015
本文介绍了一种基于查询引导的端到端人物搜索网络,并使用最新的联合检测器和重新识别工作 OIM [37] 进行扩展。实验结果表明,我们的方法在 CUHK-SYSU [37] 和 PRW [46] 数据集上都优于现有的最先进方法。
May, 2019