Dec, 2018

单阶段对齐网络实时理解指代表达

TL;DR本文提出了一种新的端到端模型Single-Stage Grounding network(SSG),用于在图像内定位所指物体,通过多模态交互器和定位器来处理一个指代表达式,提出了引导注意机制和预测视觉属性信息来提高模型性能,并在RefCOCO,RefCOCO +和RefCOCOg数据集上进行了实验,结果表明设备效率高,能在很短时间内完成对所指物体的定位。