CVPRMar, 2019

信息最大化的视觉问题生成

TL;DR本文提出了一种模型,通过最大化图像、期望回答和生成的问题之间的互信息,引入可变连续潜在空间来解决自然语言离散标记的无法计算问题,并通过第二潜在空间实现类似回答聚类,实现目标驱动的提取物体、属性、颜色、材质等信息,并在实测中实现获取之前未见过的视觉概念的目标。