ICCVSep, 2019

图像字幕层次分析

TL;DR该论文提出了一种基于分层结构的图像编码器,通过将图像分解为实例级别、区域级别和整体级别的层次结构,引入了分层解析(HIP)架构,大大提高了基于神经网络的图像描述性能,结合图卷积网络(GCN)可以进一步提高描述性能。