鉴别器引导的合作扩散用于联合音频和视频生成

May, 2024

鉴别器引导的合作扩散用于联合音频和视频生成

Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation

Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji

TL;DR通过利用预训练的单模态音频和视频生成模型，我们旨在构建一个计算成本最小化的音频 - 视频生成模型。为了实现这一目标，我们提出了一种新方法，通过引导每个单模态模型来协作生成跨模态对齐的样本。我们在几个基准数据集上的实证评估表明，我们的方法改进了单模态的准确度和多模态的对齐，同时具有相对较少的参数。

Abstract

In this study, we aim to construct an audio-video generative model with minimal computational cost by leveraging pre-trained single-modal generative models for audio and video. To achieve this, we propose a novel

audio-video generative model computational cost single-modal generative models joint guidance module multi-modal alignment

发现论文，激发创造

MM-Diffusion：学习多模态扩散模型用于联合音频和视频生成

本文介绍了一种基于 Multi-Modal Diffusion 模型，利用两个耦合的自编码器进行序列多模态非线性去噪，提出了一种随机平移注意力块用于跨模态对齐，以实现音视频帧的生成并提高音视频质量

Dec, 2022

视听结合：基于扩散潜在对齐器的开放领域视听生成

本研究提出了一个基于优化的跨视觉 - 音频和联合视觉 - 音频生成框架，通过与预训练的 ImageBind 模型共享潜在表示空间，实现了优越的联合视频 - 音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。

Feb, 2024

CMMD：视频 - 音频条件建模的对比多模态扩散

我们介绍了一种多模态扩散模型，专为视频和音频的双向条件生成而设计。通过引入联合对比训练损失来增强视听事件的同步，我们认识到在多模态生成任务中准确对齐视频和音频事件的重要性。我们的研究方法包括对多个数据集进行全面实验，以全面评估我们所提出的模型的有效性。从各个角度进行了生成质量和对齐性能的评估，包括客观和主观指标。我们的研究结果表明，所提出的模型优于基线，证实了它的有效性和效率。特别地，对比损失的引入改善了音视频对齐，特别是在高相关性的视频到音频生成任务中。这些结果表明我们所提出的模型具有改善多模态生成的质量和对齐性的潜力，从而促进了视频和音频条件生成系统的发展。

Dec, 2023

一种适用于音视频生成的多功能扩散变压器

通过使用新的训练方法和变量扩散时间步长，我们提出了一种基于转换器的音视频潜在扩散模型，可在任务不可知的情况下进行训练，并在推理过程中实现各种音视频生成任务，克服基线模型在生成条件输入上的时间和感知上的不连贯样本的局限性。

May, 2024

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

DiffSal: 扩散显著性预测的音频和视频联合学习

本研究提出了一种基于扩散架构的音视频显著性预测方法（DiffSal），使用音频和视频作为条件，通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题，并在六个具有挑战性的音视频基准任务中取得了优秀的性能。

Mar, 2024

音频驱动共话手势生成的扩散模型驯服

本研究提出了 Diffusion Co-Speech Gesture（DiffGesture）框架，该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性，通过弥散模型的设计思路， DiffGesture 可以在质量和多样性之间进行平衡，实现了高保真的音频驱动共话手势生成。

Mar, 2023

音频驱动的预训练扩散模型生成与编辑

我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。

May, 2024

结构和内容引导的扩散模型视频合成

本研究提出一种结构与内容导向的视频扩散模型。训练过程基于单眼深度估计，能够控制结构和内容的保真度，并通过新的指导方法使模型展现明确的时间一致性控制。实验结果表明该模型可以实现对视频特征的精细控制，依据少数参考图像定制化编辑，且用户更倾向于使用该模型的结果。

Feb, 2023

DAVIS: 高质量的音频视觉分离与生成扩散模型

我们提出了 DAVIS，一种基于扩散模型的音频 - 视觉分离框架，通过生成的方式解决音频 - 视觉声源分离任务。与现有的判别方法相比，DAVIS 利用生成性扩散模型和 Separation U-Net 从高斯噪声开始合成分离后的幅度，以实现在各种类别中高质量声音分离的目标。我们在特定领域的 MUSIC 数据集和开放领域的 AVE 数据集上将 DAVIS 与现有的最先进的判别式音频 - 视觉分离方法进行比较，结果表明 DAVIS 在分离质量方面优于其他方法，展示了我们的框架在处理音频 - 视觉源分离任务上的优势。

Jul, 2023