基于多模态变分自编码器的音频 - 视觉分割

ICCVOct, 2023

基于多模态变分自编码器的音频 - 视觉分割

Multimodal Variational Auto-encoder based Audio-Visual Segmentation

Yuxin Mao, Jing Zhang, Mochu Xiang, Yiran Zhong, Yuchao Dai

TL;DR通过提出的明确条件多模态变分自编码器（ECMVAE）来进行音频 - 视觉分割（AVS），从有效的表示学习的角度解决现有 AVS 方法中的问题，该方法的关键词包括明确条件多模态变分自编码器、音频 - 视觉分割、表示学习、交叉模态共享表示和音源分割。

Abstract

We propose an explicit conditional multimodal variational auto-encoder (ECMVAE) for audio-visual segmentation (AVS), aiming to segment sound sources in the video sequence. Existing AVS methods focus on implicit f

explicit conditional multimodal variational auto-encoder audio-visual segmentation representation learning cross-modal shared representation sound source segmentation

发现论文，激发创造

多模式深度生成模型的变分混合专家自编码器

本文阐述了成功学习多模态生成模型的四个判定标准，提出了一种混合专家多模态变分自编码器（MMVAE）来学习不同模态的生成模型，并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力，从质量和数量两方面进行了定性和定量。

Nov, 2019

一种多模态动态变分自编码器用于音视频语音表征学习

本文介绍了一个多模态和动态 VAE（MDVAE），应用于无监督学习音频 - 视觉语音表示。实施时，结构化的潜在空间旨在将共享于两种模态之间的动态潜在因素与各自模态的动态和静态信息分离，采用两阶段训练方法，并通过对音频 - 视觉数据集进行实验来证明此模型在音频 - 视觉信息的无监督学习中具有良好的性能。

May, 2023

可扩展的弱监督学习的多模态生成模型

本文介绍了一种基于变分自编码器的多模态学习方法，能够有效地用少量参数处理多模态输入数据的推断问题，提出的方法在一些数据集上表现出与最先进技术相匹配的性能。

Feb, 2018

基于划分的解缠：一种用于多模态感官数据的表示学习框架

本文提出了一种基于 PVAE 的多模态生成模型，可将共享因素和模态相关因素编码为不同的潜变量，用于生成符合不同语义和风格要求的条件数据，并利用发现的语义单元在两个音频 / 图像数据集上完成了定量和定性的评估。

May, 2018

多模式变分自编码器中共享和私有潜在因素的解耦

用于多模态数据的生成模型可用于识别与观察数据异质性重要决定因素相关的潜在因素。然而，存在一些变量是特定于单个模态的私有变量，而共享变量对解释多模态数据的变异性很重要。本研究探讨了多模态变分自编码器在可靠地实现这种解缠的能力方面，针对一种挑战性的问题设置，其中模态特定变异占主导地位，并提出了一种修改方法，使其对模态特定变异更加鲁棒。我们的发现得到了合成数据和多种真实世界多组学数据集的实验证实支持。

Mar, 2024

深度生成模型的联合多模态学习

本文介绍了一种基于深度生成模型的多模态交换方法，提出了条件独立的联合表示的概念，实现了对不同模态之间的高级概念进行双向交换，并通过对比实验表明该模型的有效性。

Nov, 2016

无监督音频视觉分割与模态对齐

通过无监督学习方法 MoCA，在像素级上将音频和视觉图像相互关联，实现音频视觉分割的目标，超过基线方法并在复杂情况下实现了显著的性能提升。

Mar, 2024

双向生成改进音频 - 视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频 - 视觉分割的改进性能，在 AVS 基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023

多模态 VAEs 中的统一多样性：改进的表示学习

用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力，如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束，提出了一种新的专家混合先验方法，软指导每个模态的潜编码向共享的聚合后验靠近，从而得到一个更好的潜编码表示，并提高了对缺失数据模态的填充能力。在多个基准数据集和具有挑战性的现实神经科学数据集上进行了广泛实验证明，与现有方法相比，学到的潜编码表示和缺失数据模态的插补有所改进。

Mar, 2024

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022