Jul, 2017

从物体、短语和区域说明生成场景图

TL;DR本文提出了一种新颖的神经网络模型,名为多级场景描述网络(MSDN),通过动态图对对象、短语和描述区域进行对齐,并使用特征细化结构在三个语义任务的三个级别之间传递消息,从而以端到端方式共同解决三个视觉任务,包括目标检测、场景图生成和区域字幕。经过实验验证,该方法可以取得较好的效果。