BriefGPT.xyz
Jul, 2017
从物体、短语和区域说明生成场景图
Scene Graph Generation from Objects, Phrases and Caption Regions
HTML
PDF
Yikang Li, Wanli Ouyang, Bolei Zhou, Kun Wang, Xiaogang Wang
TL;DR
本文提出了一种新颖的神经网络模型,名为多级场景描述网络(MSDN),通过动态图对对象、短语和描述区域进行对齐,并使用特征细化结构在三个语义任务的三个级别之间传递消息,从而以端到端方式共同解决三个视觉任务,包括目标检测、场景图生成和区域字幕。经过实验验证,该方法可以取得较好的效果。
Abstract
object detection
,
scene graph generation
and
region captioning
, which are three scene understanding tasks at different semantic levels, ar
→