Oct, 2019

基于标题感知的指代表达式物体分割

TL;DR本文介绍了一种通过端到端可训练的理解网络,由语言和视觉编码器组成,从语言和图像领域提取特征表示,提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息,并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示,在两个数据集上评估了所提出的框架,并表明该方法在状态 - of-the-art 算法中表现良好。