联合 Wasserstein 自编码器用于多模态嵌入的对齐

ICCVSep, 2019

联合 Wasserstein 自编码器用于多模态嵌入的对齐

Joint Wasserstein Autoencoders for Aligning Multimodal Embeddings

Shweta Mahajan, Teresa Botschen, Iryna Gurevych, Stefan Roth

TL;DR通过对多个视觉与文本模态的联合嵌入进行高斯规范化，本文应用 Wasserstein 自编码器对图像和文本的潜在表示进行编码，以确保生成的语义表示具有良好的连续性，从而实现语义对齐和跨数据集的表现。在交叉检索和短语定位上，我们展示了该方法的优越性，实现了最新的最优准确率，同时具有更好的泛化能力。

Abstract

One of the key challenges in learning joint embeddings of multiple modalities, e.g. of images and text, is to ensure coherent cross-modal semantics that generalize across datasets. We propose to address this through joint Gaussian regularization of the →

joint embeddings cross-modal semantics latent representations wasserstein autoencoders semi-supervised representation

发现论文，激发创造

学习鲁棒的视觉 - 语义嵌入

该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Mar, 2017

DialogWAE: 条件 Wasserstein 自编码器的多模态响应生成

提出了 DialogWAE，这是一种特殊设计的条件 WAE，用于对话建模，能够通过在潜变量空间内训练 GAN 来模拟数据的分布，并进一步发展了高斯混合先验网络，能够产生具有更连贯、更丰富和更多样化响应的结果。

May, 2018

Wasserstein 自编码器

本文提出了 Wasserstein 自编码器（WAE）算法，通过最小化 Wasserstein 距离来构建数据分布的生成模型，并与其他技术进行比较，表明其是对抗自编码器（AAE）的推广，可用于生成更高质量的样本。

Nov, 2017

Wasserstein 自动编码器用于主题建模

我们在 Wasserstein 自编码器（WAE）框架中提出了一种新颖的神经主题模型。通过直接在潜在文档 - 主题向量上施加狄利克雷先验，利用潜在空间的结构并应用合适的核，在最小化最大均值差异（MMD）中进行分布匹配，我们发现 MMD 在匹配高维度狄利克雷分布方面比生成对抗网络（GAN）表现更好。我们还发现，训练过程中在编码器输出中引入随机性可以产生更加连贯的主题。为了衡量所产生的主题的多样性，我们提出了一个简单的主题唯一性度量。结合广泛使用的语义相关性度量 NPMI，实验证明我们的模型比现有模型产生更好的主题质量。

Jul, 2019

多模式深度生成模型的变分混合专家自编码器

本文阐述了成功学习多模态生成模型的四个判定标准，提出了一种混合专家多模态变分自编码器（MMVAE）来学习不同模态的生成模型，并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力，从质量和数量两方面进行了定性和定量。

Nov, 2019

可扩展的弱监督学习的多模态生成模型

本文介绍了一种基于变分自编码器的多模态学习方法，能够有效地用少量参数处理多模态输入数据的推断问题，提出的方法在一些数据集上表现出与最先进技术相匹配的性能。

Feb, 2018

深度生成模型的联合多模态学习

本文介绍了一种基于深度生成模型的多模态交换方法，提出了条件独立的联合表示的概念，实现了对不同模态之间的高级概念进行双向交换，并通过对比实验表明该模型的有效性。

Nov, 2016

Gromov-Wasserstein 自编码器

本文提出了一种新的表征学习方法，Gromov-Wasserstein Autoencoders（GWAE），通过将 variational autoencoding scheme 与 Gromov-Wasserstein metric 相结合来直接匹配潜变量和数据分布，以实现在不改变其目标的情况下将 meta-priors 引入潜空间。

Sep, 2022

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

语音文本语义对齐嵌入的分析

本论文研究联合语音 - 文本 Embeddings 空间的内在属性，借助自动语音识别，通过多任务预训练场景实现语义对齐，利用定量检索精度度量语义对齐，进行了深入分析。

Apr, 2022