Dec, 2018

自动编码场景图像生成图像描述

TL;DR本文提出了场景图自编码器(SGAE),将语言归纳偏差纳入编码器-解码器图像字幕框架,以获得更加人性化的字幕。作者使用场景图将图像和句子的复杂结构布局表示,并使用共享字典将感性偏差在视觉语言领域之间传递。实验结果表明,在 MS-COCO 图像字幕基准测试中,基于 SGAE 的单一模型在 Karpathy 分割上取得了新的最高 CIDEr-D 值 127.8,在官方服务器上与其他集成模型相比也获得了 125.5 的竞争 CIDEr-D 值(c40)