CMMD：视频 - 音频条件建模的对比多模态扩散

Dec, 2023

CMMD：视频 - 音频条件建模的对比多模态扩散

CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling

Ruihan Yang, Hannes Gamper, Sebastian Braun

TL;DR我们介绍了一种多模态扩散模型，专为视频和音频的双向条件生成而设计。通过引入联合对比训练损失来增强视听事件的同步，我们认识到在多模态生成任务中准确对齐视频和音频事件的重要性。我们的研究方法包括对多个数据集进行全面实验，以全面评估我们所提出的模型的有效性。从各个角度进行了生成质量和对齐性能的评估，包括客观和主观指标。我们的研究结果表明，所提出的模型优于基线，证实了它的有效性和效率。特别地，对比损失的引入改善了音视频对齐，特别是在高相关性的视频到音频生成任务中。这些结果表明我们所提出的模型具有改善多模态生成的质量和对齐性的潜力，从而促进了视频和音频条件生成系统的发展。

Abstract

We introduce a multi-modal diffusion model tailored for the bi-directional conditional generation of video and audio. Recognizing the importance of accurate alignment between video and audio events in multi-modal generation tasks, we propose a →

multi-modal diffusion model bi-directional conditional generation joint contrastive training loss video and audio alignment generation quality

发现论文，激发创造

MM-Diffusion：学习多模态扩散模型用于联合音频和视频生成

本文介绍了一种基于 Multi-Modal Diffusion 模型，利用两个耦合的自编码器进行序列多模态非线性去噪，提出了一种随机平移注意力块用于跨模态对齐，以实现音视频帧的生成并提高音视频质量

Dec, 2022

鉴别器引导的合作扩散用于联合音频和视频生成

通过利用预训练的单模态音频和视频生成模型，我们旨在构建一个计算成本最小化的音频 - 视频生成模型。为了实现这一目标，我们提出了一种新方法，通过引导每个单模态模型来协作生成跨模态对齐的样本。我们在几个基准数据集上的实证评估表明，我们的方法改进了单模态的准确度和多模态的对齐，同时具有相对较少的参数。

May, 2024

CMCGAN: 跨模态视听相互生成的统一框架

本文提出了一个基于交叉模态循环生成对抗网络的视听互生成模型，它能有效地从一种模态中恢复另一种模态，从而用于动态多模态分类任务，并通过丰富的实验验证表明该方法具有很好的生成效果。

Nov, 2017

跨模态音乐和图像生成的离散对比扩散

通过提高输入与输出的互信息，利用条件离散对比扩散 (CDCD) 损失和两种对比扩散机制，将对比学习和传统变分目标相结合，我们成功地提高了多模式条件综合生成模型的输入输出对应性并取得了良好的结果。

Jun, 2022

对比条件潜扩散在视听分割中的应用

通过潜在扩散模型和对比学习，我们提出了一种用于音频 - 视觉分割的模型，以深入探究音频的贡献。我们将音频视为有条件生成任务，其中音频被定义为声音生成器分割的条件变量。我们的潜在扩散模型通过对地面真实分割地图的条件生成过程进行学习，确保了音频与最终分割地图的相关性。对比学习使我们的模型学习音频 - 视觉对应关系，并最大化模型预测和音频数据之间的互信息，从而明确地增加音频对音频 - 视觉分割的贡献。实验结果验证了我们解决方案的有效性。

Jul, 2023

C3LLM: 使用大型语言模型的条件多模式内容生成

我们介绍了 C3LLM（Conditioned-on-Three-Modalities Large Language Models），它是一个新颖的框架，将视频到音频、音频到文本和文本到音频三个任务结合在一起。C3LLM 以大型语言模型（LLM）结构为基础，作为不同模态对齐、综合给定条件信息并以离散方式进行多模态生成的桥梁。我们的贡献如下：首先，我们使用预训练音频码本为音频生成任务自适应了分层结构。具体而言，我们训练 LLM 从给定条件生成音频语义标记，并进一步使用非自回归变压器在层级中生成不同级别的声学标记以增强生成音频的保真度。其次，基于 LLM 最初设计用于具有下一个词预测方法的离散任务的直觉，我们使用离散表示进行音频生成，并将其语义含义压缩为声学标记，类似于向 LLM 添加 “声学词汇”。第三，我们的方法将以前的音频理解、视频到音频生成和文本到音频生成任务结合到一个统一的模型中，以端到端的方式提供更多的灵活性。我们的 C3LLM 通过各种自动化评估指标实现了改进的结果，与以前的方法相比，提供了更好的语义对齐。

May, 2024

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

跨模态语境扩散模型的文本导向视觉生成与编辑

我们提出了一种新颖而通用的上下文扩散模型 (ContextDiff)，通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中，将上下文传播到这两个过程的所有时间步，从而促进跨模态条件建模，在文本到图像生成和文本到视频编辑的两个挑战性任务中，我们的 ContextDiff 实现了新的最先进性能，通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。

Feb, 2024

基于扩散模型的认知启发跨模态数据生成

探索一种基于扩散模型的跨模态生成方法，通过多模态扩散模型的训练和采样方案使用逐通道图像条件学习跨模态相关性，实现数据生成和多种模态的条件生成。

May, 2023

深度跨模态音视频生成

本研究通过利用深度生成对抗训练解决了跨模态音频 - 视觉生成的问题，使用条件生成对抗网络实现了音乐表演的跨模态音频 - 视觉生成，并探索了音频和视觉信号的不同编码方法以及基于乐器和姿势的生成情景，并且进行了分类和人工评估实验，证明了该模型可以在很大程度上从一个模态（音频 / 视觉）生成另一个模态（视觉 / 音频），并提供了未来研究所需的数据集和设计选项。

Apr, 2017