ECCVJul, 2018

重新思考图像描述中的潜在状态形式

TL;DR研究了使用二维地图来编码潜在状态的图像字幕模型,发现使用 2D 状态通常在字幕生成方面更加有效,且能够保留空间局部性,并通过这种方式揭示了字幕生成过程中的内部动态和输入视觉领域与输出语言领域之间的联系。