一个简单而强大的声音视频生成基线：音频和视频扩散模型的有效适应以进行联合生成

Sep, 2024

一个简单而强大的声音视频生成基线：音频和视频扩散模型的有效适应以进行联合生成

A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation

HTML

PDF

Masato Ishii, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji

TL;DR本研究针对声音视频生成领域中的现有方法不足进行了探讨。我们提出了一种集成音频和视频扩散模型的新方法，通过引入时间步调整和位置编码的跨模态条件设计（CMC-PE）机制，显著提升了音视频配对的对齐效果。实验结果表明，该方法在生成质量上优于现有技术，具有良好的应用潜力。

Abstract

In this work, we build a simple but strong baseline for sounding Video Generation. Given base Diffusion Models for audio and video, we integrate them with additional modules into a single model and train it to ma

发现论文，激发创造

MM-Diffusion：学习多模态扩散模型用于联合音频和视频生成

本文介绍了一种基于Multi-Modal Diffusion模型，利用两个耦合的自编码器进行序列多模态非线性去噪，提出了一种随机平移注意力块用于跨模态对齐，以实现音视频帧的生成并提高音视频质量

Dec, 2022

对齐，自适应和注入：音频引导的统一图像生成

本文提出了一个统一框架——Align, Adapt, and Inject (AAI)，用于基于声音进行图像生成、编辑和风格化。其方法将输入的声音转换成一个声音令牌，并利用现有强大的扩散式T2I模型，从而实现了方便而经济的声音引导的图像生成、编辑和风格化。实验表明，AAI方法优于其他最先进的文本和声音引导方法。

Jun, 2023

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本-视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

CMMD：视频-音频条件建模的对比多模态扩散

我们介绍了一种多模态扩散模型，专为视频和音频的双向条件生成而设计。通过引入联合对比训练损失来增强视听事件的同步，我们认识到在多模态生成任务中准确对齐视频和音频事件的重要性。我们的研究方法包括对多个数据集进行全面实验，以全面评估我们所提出的模型的有效性。从各个角度进行了生成质量和对齐性能的评估，包括客观和主观指标。我们的研究结果表明，所提出的模型优于基线，证实了它的有效性和效率。特别地，对比损失的引入改善了音视频对齐，特别是在高相关性的视频到音频生成任务中。这些结果表明我们所提出的模型具有改善多模态生成的质量和对齐性的潜力，从而促进了视频和音频条件生成系统的发展。

Dec, 2023

视听结合：基于扩散潜在对齐器的开放领域视听生成

本研究提出了一个基于优化的跨视觉-音频和联合视觉-音频生成框架，通过与预训练的ImageBind模型共享潜在表示空间，实现了优越的联合视频-音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。

Feb, 2024

一种适用于音视频生成的多功能扩散变压器

通过使用新的训练方法和变量扩散时间步长，我们提出了一种基于转换器的音视频潜在扩散模型，可在任务不可知的情况下进行训练，并在推理过程中实现各种音视频生成任务，克服基线模型在生成条件输入上的时间和感知上的不连贯样本的局限性。

May, 2024

鉴别器引导的合作扩散用于联合音频和视频生成

通过利用预训练的单模态音频和视频生成模型，我们旨在构建一个计算成本最小化的音频-视频生成模型。为了实现这一目标，我们提出了一种新方法，通过引导每个单模态模型来协作生成跨模态对齐的样本。我们在几个基准数据集上的实证评估表明，我们的方法改进了单模态的准确度和多模态的对齐，同时具有相对较少的参数。

May, 2024

从文本和视频中生成声音

提出了一种名为ReWaS的新型视频和文本生成声音的方法，通过视频作为文本到音频生成模型的条件控制，从视频中估计音频的结构信息（即能量），同时从用户提示中接收关键内容线索。通过分离音频的生成组件，提供了一个更灵活的系统，允许用户根据其偏好自由调整能量、周围环境和主音源。实验结果证明了该方法在质量、可控性和训练效率方面的优越性。

Jul, 2024

音频生成及其隐式对齐

通过探索视觉编码器、辅助嵌入、数据增强技术等方面，该研究旨在提供对视频到音频生成范式的洞察。通过全面的评估流程，并强调生成质量和视频音频同步对齐，论文展示了其模型在视频到音频生成方面的最新能力。此外，研究还提供了不同数据增强方法对增强生成框架整体性能的影响的重要见解，为从语义和时间角度生成同步音频的挑战展示了可能性。希望这些洞察能为开发更加逼真准确的音视频生成模型奠定基础。

Jul, 2024

多模态潜在扩散模型用于声音视频生成

本研究针对声音视频生成任务中高维信号空间、不同数据格式及内容信息模式的挑战，提出了一种新颖的多模态潜在扩散模型（MM-LDM）。通过统一音频和视频数据表示，并构建低级知觉潜在空间和共享高级语义特征空间，我们的方法在多个评估指标上实现了新的最先进结果，显著提升了质量和效率。

Oct, 2024