扩散模型作为遮蔽音频 - 视频学习器

Oct, 2023

扩散模型作为遮蔽音频 - 视频学习器

Diffusion Models as Masked Audio-Video Learners

Elvis Nunez, Yanzi Jin, Mohammad Rastegari, Sachin Mehta, Maxwell Horton

TL;DR学习了音频和视觉信号的同步已经被利用来学习更丰富的音频 - 视觉表示，最新的研究结合了扩散模型与音频 - 视频预训练框架 MAViL，通过使用掩蔽编码和对比学习来实现音频谱图和视频帧的联合重构，并通过训练效率方法的结合降低了 32％的浮点预训练操作数量 (FLOPS) 和 18％的预训练时间，与 MAViL 相比，在下游音频分类任务上没有损害模型的性能。

Abstract

Over the past several years, the synchronization between audio and visual signals has been leveraged to learn richer audio-visual representations. Aided by the large availability of unlabeled videos, many unsuper

synchronization audio-visual representations masked audio-video learners (mavil)diffusion models training efficiency methodologies

发现论文，激发创造

扩散模型作为遮盖自编码器

本文提出一种使用掩码自编码器作为扩散模型的条件，进而重复生成预训练视觉表示的方法，具备强大的下游识别任务的初始化能力，高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时，本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。

Apr, 2023

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

MM-Diffusion：学习多模态扩散模型用于联合音频和视频生成

本文介绍了一种基于 Multi-Modal Diffusion 模型，利用两个耦合的自编码器进行序列多模态非线性去噪，提出了一种随机平移注意力块用于跨模态对齐，以实现音视频帧的生成并提高音视频质量

Dec, 2022

视频预测与填充的扩散模型

本文提出了一种名为 RaMViD 的随机掩码视频扩散模型，利用 3D 卷积将图像扩散模型扩展到视频领域，并引入了一种新的训练条件技术，通过改变所用的掩码，能够实现视频预测、填充和上采样，通过评估 RaMViD 在两个视频预测数据集上的表现，本文证明了该模型达到了最新水平，并提供了高分辨率视频的数据。

Jun, 2022

具有稳健遗忘机制的生命周期音视频屏蔽自编码器与局部对齐

我们提出了一种终身音视频遮罩自编码器，它能够在分布随时间不断变化的视频流中持续学习多模态表示。具体而言，我们提出了两个创新点来解决这个问题：（1）局部对齐：我们引入了一个小型可训练的多模态编码器，用于预测彼此相互对齐的音频和视频令牌。这使得模型只学习具有准确多模态关系的高度相关的音视频补丁。（2）忘却鲁棒多模态补丁选择：我们比较当前数据对之间每个音视频补丁的相对重要性，以减轻先前学习的音视频表示的意外漂移。因此，我们提出的方法 FLAVA 在一系列预训练任务上训练期间捕捉音频和视频模态之间的复杂关系，并减轻了已学习音视频相关性的遗忘。我们的实验证实了 FLAVA 在持续音视频表示学习场景下的几个基准数据集上优于现有的持续学习方法。

Oct, 2023

一种适用于音视频生成的多功能扩散变压器

通过使用新的训练方法和变量扩散时间步长，我们提出了一种基于转换器的音视频潜在扩散模型，可在任务不可知的情况下进行训练，并在推理过程中实现各种音视频生成任务，克服基线模型在生成条件输入上的时间和感知上的不连贯样本的局限性。

May, 2024

LMD：潜在蒙版扩散技术加速图像重建

本文介绍了一种更快的图像重建框架 LMD，通过潜在遮蔽扩散方法，将高分辨率图像投影和重建在潜在空间中，设计了渐进遮蔽扩散模型，通过三种不同的调度器逐渐提高遮蔽比例，以从简单到困难地重建潜在特征，从而加快模型训练速度，同时保持了原始准确性，并在下游任务中显著提高推理速度。

Dec, 2023

AV-MaskEnhancer：通过音频 - 视觉蒙版自编码器增强视频表达

通过结合视听信息，我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示，解决了从低分辨率和模糊的原始视频中提取特征的挑战，并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9% 的 top-5 准确率，超越了现有工作并达到了最先进水平。

Sep, 2023

掩码扩散模型学习速度快

我们提出了一种基于先验的去噪训练框架，并将先训练和微调范式纳入扩散模型的训练过程，从而显着提高了训练效率和生成的图像质量。

Jun, 2023

音视少样本学习的文本特征传播

通过少量标记数据进行音视频数据的深度学习模型训练是一种更经济的方式，本研究提出了一种统一的音视频少样本视频分类基准，通过跨模态注意力融合时空和音视觉特征，并为新类别生成多模态特征，最终获得了最先进的音视频少样本学习表现。

Sep, 2023