ECCVAug, 2022

以精细化理解带来更丰富的视野:基于隐含模态对文本人物检索的对齐

TL;DR本研究提出了一种隐式视觉 - 文本框架,通过多级和双向遮罩建模方法实现跨模态匹配,提高了人物的文本检索效果。