一种多模态动态变分自编码器用于音视频语音表征学习

May, 2023

一种多模态动态变分自编码器用于音视频语音表征学习

A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning

Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud Séguier

TL;DR本文介绍了一个多模态和动态 VAE（MDVAE），应用于无监督学习音频 - 视觉语音表示。实施时，结构化的潜在空间旨在将共享于两种模态之间的动态潜在因素与各自模态的动态和静态信息分离，采用两阶段训练方法，并通过对音频 - 视觉数据集进行实验来证明此模型在音频 - 视觉信息的无监督学习中具有良好的性能。

Abstract

In this paper, we present a multimodal \textit{and} dynamical vae (MDVAE) applied to unsupervised →

multimodal dynamical vae unsupervised learning audio-visual speech

发现论文，激发创造

基于多模态变分自编码器的音频 - 视觉分割

通过提出的明确条件多模态变分自编码器（ECMVAE）来进行音频 - 视觉分割（AVS），从有效的表示学习的角度解决现有 AVS 方法中的问题，该方法的关键词包括明确条件多模态变分自编码器、音频 - 视觉分割、表示学习、交叉模态共享表示和音源分割。

Oct, 2023

离散序列自编码器

这篇论文介绍了一种针对高维时序数据（如视频或音频）的 VAE 模型架构，学习了数据的潜在表示，可以近似地分解潜在的时间相关特征（动态）和随时间保持不变的特征（内容），从而进行内容和动态的部分控制，并给出了在人工生成的卡通视频片段和声音记录上的实验证据，进一步论证了随机 RNN 模型相对于确定性 RNN 对长序列的压缩与生成的效率更高的假设。

Mar, 2018

多模式深度生成模型的变分混合专家自编码器

本文阐述了成功学习多模态生成模型的四个判定标准，提出了一种混合专家多模态变分自编码器（MMVAE）来学习不同模态的生成模型，并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力，从质量和数量两方面进行了定性和定量。

Nov, 2019

基于划分的解缠：一种用于多模态感官数据的表示学习框架

本文提出了一种基于 PVAE 的多模态生成模型，可将共享因素和模态相关因素编码为不同的潜变量，用于生成符合不同语义和风格要求的条件数据，并利用发现的语义单元在两个音频 / 图像数据集上完成了定量和定性的评估。

May, 2018

动态变分自编码器：综述

本文对可变自编码器 (VAE) 拓展至处理序列数据的方法进行了综述，提出并讨论了动态变分自编码器 (DVAEs) 这一类模型，详细介绍了七种 DVAE 模型，并通过语音分析 - 重构任务的实验基准进行了验证，最后探讨了 DVAE 模型的重要问题和未来的研究方向。

Aug, 2020

多模态 VAEs 中的统一多样性：改进的表示学习

用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力，如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束，提出了一种新的专家混合先验方法，软指导每个模态的潜编码向共享的聚合后验靠近，从而得到一个更好的潜编码表示，并提高了对缺失数据模态的填充能力。在多个基准数据集和具有挑战性的现实神经科学数据集上进行了广泛实验证明，与现有方法相比，学到的潜编码表示和缺失数据模态的插补有所改进。

Mar, 2024

可扩展的弱监督学习的多模态生成模型

本文介绍了一种基于变分自编码器的多模态学习方法，能够有效地用少量参数处理多模态输入数据的推断问题，提出的方法在一些数据集上表现出与最先进技术相匹配的性能。

Feb, 2018

变分自编码器用于学习语音情感的潜在表示：初步研究

该研究提出对于语音情感识别任务，在深度生成模型 VAE 的启发下，使用 VAEs 学习语音信号的潜在表征，并使用这种表征来分类情感，证明通过 VAEs 学习到的特征可产生情感分类的最佳结果。

Dec, 2017

深度生成模型的联合多模态学习

本文介绍了一种基于深度生成模型的多模态交换方法，提出了条件独立的联合表示的概念，实现了对不同模态之间的高级概念进行双向交换，并通过对比实验表明该模型的有效性。

Nov, 2016

跨越语言、视觉和行动：多模态 VAEs 在机器人操作任务中的应用

我们关注机器人操作中无监督的视觉 - 语言 - 行为映射，探索多模态变分自编码器在无监督机器人操作任务中的应用，并提出一种模型不变训练方法，成功提高模型在模拟环境中的性能，并对个体任务的挑战进行了系统评估，揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。

Apr, 2024