MMSep, 2019

聚焦注意力:一种双向焦点注意力网络用于图像 - 文本匹配

TL;DR提出了一种新颖的双向焦点注意力网络(BFAN),它不仅允许关注相关部分,而且将所有关注点都集中在这些相关部分上以消除无关的碎片,实现了图像与文本之间的语义对齐,表现出优越性能。