May, 2023

一种多模态动态变分自编码器用于音视频语音表征学习

TL;DR本文介绍了一个多模态和动态 VAE(MDVAE),应用于无监督学习音频 - 视觉语音表示。实施时,结构化的潜在空间旨在将共享于两种模态之间的动态潜在因素与各自模态的动态和静态信息分离,采用两阶段训练方法,并通过对音频 - 视觉数据集进行实验来证明此模型在音频 - 视觉信息的无监督学习中具有良好的性能。