Oct, 2023

上下文有重要性:具有可变形注意力的端到端全景叙述关联匹配网络

TL;DR提出了一种名为DRMN(Deformable Attention Refined Matching Network)的新颖学习框架,通过引入可变形注意力,在特征学习的迭代过程中融入不同尺度像素的重要上下文信息,从而提高文本短语与图像像素之间的匹配结果。DRMN在PNG基准测试中取得了新的最先进结果,在平均召回率上提高了3.5%。