研究了跨模态对齐的图像检索问题,提出了一种 IRRA 框架,并在三个公共数据集上获得了优于现有方法的最新成果。
Mar, 2023
本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型,该模型可以学习到模态不变的特征表示,在四个公开数据集上取得了最优的交叉模态匹配性能,排名 1 的准确率提高了 2%到 5%。
Aug, 2019
提出了一种用于文本到图像的人物再识别的鲁棒双重嵌入方法 (RDE),能够学习到在存在噪音对应的情况下的可靠的视觉语义关联。
Aug, 2023
本文提出了一种跨模态自适应信息传递模型(Cross-modal Adaptive Message Passing, CAMP),通过自适应地控制跨模态信息的流动,全面且精细地考虑跨模态交互,使用硬负样本二元交叉熵损失函数进行训练,在 COCO 和 Flickr30k 上显著超过最先进方法,显示出了我们方法的有效性。
Sep, 2019
本研究提出了一种新颖的特征学习框架,通过利用密集对应的交叉模态人物图像,像素级地抑制与模态相关的特征,从而更有效地促进交叉模态本地特征的判别式特征学习,从而解决了可见 - 红外人物重识别的问题。
Aug, 2021
本研究提出了一种基于卷积神经网络的新型架构,用于学习语义对齐的跨模态视觉和文本表示,其以 AXM-Block 作为基本构建块,动态地利用两种模态的多尺度知识,并根据共享语义重新校准每种模态。该框架利用文本数据作为视觉表示学习的超级注释信号,能够有效地学习模态之间的对齐语义,自动拒绝不相关信息,并在 CUHK-PEDES 数据集上表现出较高性能。
Jan, 2021
使用生成的多个人属性作为提示来辅助更准确的 ReID 检索结果的潜力,我们提出了一种名为 Multi-Prompts ReID(MP-ReID)的新框架,基于提示学习和语言模型,充分利用精细属性来辅助 ReID 任务。实验证明了该解决方案的有效性和合理性。
Dec, 2023
我们提出了一种新颖的原型引导的跨模态完成与对齐(PCCA)框架,用于处理不完整的基于文本的人员重新识别任务,该任务由于缺失的跨模态数据而在现实世界中通常遇到。我们的实验结果表明,我们的方法在几个基准测试中始终优于最先进的文本 - 图像重新识别方法。
Sep, 2023
通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架,使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss,实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配,进一步优化了语义排列。
Jun, 2024
通过引入区域数据增强和轻量级混合补偿模块的转移感知行人关注学习 (TMPA) 模型,以有效补偿缺失的特定模态特征,并完全探索具有最小计算开销的判别模块完整特征,我们提出了一种新颖的可见 - 红外行人再识别方法。在 SYSU-MM01 和 RegDB 数据集上进行的广泛实验证明了我们提出的 TMPA 模型的有效性。