Nov, 2017

使用具有加性高斯编码空间的变分自编码器的多样且准确的图像描述

TL;DR本论文探讨了使用条件变分自编码器(CVAEs)生成图像字幕。我们提出了两种模型,分别基于高斯混合模型(GMM)假设和一种线性组合均值的新型加性高斯(AG)假设来构造潜在空间,从而创造多种内容类型的图像的先验分布。与LSTM基线或“vanilla” CVAE相比,我们展示了这两种模型产生了更多样化和更准确的字幕,特别是AG-CVAE表现得尤为优异。