CVPRApr, 2019

用于指涉图像分割的跨模态自注意力网络

TL;DR本文提出了一种跨模态自注意模块 (CMSA),可以有效地捕捉语言和视觉特征之间的长距离依赖关系,并且采用门控多层融合模块,以选择性地集成不同级别的特征。在多个数据集上的验证表明,我们的方法在图像分割任务上显著优于现有的最先进的方法。