May, 2023
一种多模态动态变分自编码器用于音视频语音表征学习
A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning
Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud Séguier
TL;DR本文介绍了一个多模态和动态 VAE(MDVAE),应用于无监督学习音频 - 视觉语音表示。实施时,结构化的潜在空间旨在将共享于两种模态之间的动态潜在因素与各自模态的动态和静态信息分离,采用两阶段训练方法,并通过对音频 - 视觉数据集进行实验来证明此模型在音频 - 视觉信息的无监督学习中具有良好的性能。