Dec, 2023

基於豐富的中文描述的原型引導型基於文本的人物檢索

TL;DR通过使用文本信息从未裁剪的场景图像中同时定位和识别目标人物的文本搜索,我们提出了一个大规模基准数据集 PRW-TPS-CN,该数据集包含 47,102 个句子,与现有数据集相比提供了更多的信息,同时提供中文和英文描述,旨在减轻人物检测和基于文本的人物检索之间的不一致,并通过聚合多个文本作为文本原型来生成图像注意力图,以消除检测不一致导致的文本检索减少,实验证明了我们方法的最新性能和 PRW-TPS-CN 数据集的有效性。