ICCVAug, 2019

用于多样图片字幕中目的建模的连续潜在空间

TL;DR通过 Seq-CVAE 模型,学习每一个单词位置的潜在空间,并仿照一个将来总结的表示来鼓励这个时间上的潜在空间捕捉如何完成句子的 “意图”,并在 MSCOCO 数据集上表现出了显著的多样性改进指标,同时在句子质量方面达到了同等水平。