ICCVSep, 2023

BiLMa: 文本人物重新识别的双向局部匹配

TL;DR通过引入双向本地匹配 (BiLMa) 框架,我们在文本输入的图像识别任务中提出了 Masked Language Modeling (MLM) 和 Masked Image Modeling (MIM) 的联合优化方法,同时引入 Semantic MIM (SemMIM) 来减小图像和文本之间的语义差距。实验证明,我们的 BiLMa 框架与 SemMIM 在三个评估基准上达到了最先进的 Rank@1 和 mAP 得分。