CVPRJan, 2017

来自上下文无关监督的上下文感知字幕

TL;DR本文针对图像生成环境下的语境问题,提出了一种关键词区分的图像描述生成方法,该方法不需要针对每个具体图像进行训练,可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示,该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。