NIPSNov, 2017

视觉解释基础(扩展摘要)

TL;DR本论文提出了一种新的模型,通过利用在生成的解释中的成分词的本地化接地来确保图像相关性,从而同时生成文本解释和图像。