Nov, 2018

Show, Control and Tell: 一种生成可控和有基础的字幕的框架

TL;DR本文介绍了一种新的图像字幕生成框架,该框架包括具有预测文本块和约束条件的递归架构,这些约束条件是通过控制信号(图像区域的序列或集合)确定的,并通过允许地面化和可控性来产生多样化的描述。实验表明,该方法在可控的图像字幕生成方面取得了最先进的性能。