Feb, 2024

多视角关注的图像文本匹配

TL;DR提出了一个针对两流图像 - 文本匹配的多视图注意力方法(MVAM),通过多样的注意头学习多个图像和文本表示,并将这些表示连接起来进行匹配,以实现更好的匹配性能和更全面的表示。