ICCVSep, 2019

联合 Wasserstein 自编码器用于多模态嵌入的对齐

TL;DR通过对多个视觉与文本模态的联合嵌入进行高斯规范化,本文应用 Wasserstein 自编码器对图像和文本的潜在表示进行编码,以确保生成的语义表示具有良好的连续性,从而实现语义对齐和跨数据集的表现。在交叉检索和短语定位上,我们展示了该方法的优越性,实现了最新的最优准确率,同时具有更好的泛化能力。