Apr, 2023

学习鲁棒的视觉语义嵌入,实现通用的人员再识别

TL;DR该论文提出了一种叫做 MMET 的多模态等价 Transformer,可用于更加鲁棒的视觉 - 语义嵌入学习和人物重新识别,同时还引入了一种动态的遮罩机制,叫做 MMM,它可以加强其他模态的特征学习,从而提高性能。