通过可组合扩散实现任意生成

May, 2023

Any-to-Any Generation via Composable Diffusion

Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, Mohit Bansal

TL;DRComposable Diffusion 是一种新颖的生成模型，能够从任意的输入单模态生成任意的输出多模态，应用了一种基于扩散的模态对齐方式，实现了输入和输出的多模态自由组合生成，并在单模态综合中表现出色。

Abstract

We present composable diffusion (CoDi), a novel generative model capable of generating any combination of output modalities, such as language, image, video, or audio, from any combination of input modalities. Unl

composable diffusion generative model multimodal generation alignment in diffusion joint-modality generation

发现论文，激发创造

基于扩散模型的认知启发跨模态数据生成

探索一种基于扩散模型的跨模态生成方法，通过多模态扩散模型的训练和采样方案使用逐通道图像条件学习跨模态相关性，实现数据生成和多种模态的条件生成。

May, 2023

多模态人脸生成与编辑的协同扩散

本文提出了一种名为 Collaborative Diffusion 的模型，在不需要重新训练的情况下，利用多种单一模态扩展固有的单一模态扩散模型以实现多模态人脸生成和编辑。

Apr, 2023

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

音频驱动共话手势生成的扩散模型驯服

本研究提出了 Diffusion Co-Speech Gesture（DiffGesture）框架，该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性，通过弥散模型的设计思路， DiffGesture 可以在质量和多样性之间进行平衡，实现了高保真的音频驱动共话手势生成。

Mar, 2023

鉴别器引导的合作扩散用于联合音频和视频生成

通过利用预训练的单模态音频和视频生成模型，我们旨在构建一个计算成本最小化的音频 - 视频生成模型。为了实现这一目标，我们提出了一种新方法，通过引导每个单模态模型来协作生成跨模态对齐的样本。我们在几个基准数据集上的实证评估表明，我们的方法改进了单模态的准确度和多模态的对齐，同时具有相对较少的参数。

May, 2024

联合征服：使用扩散模型的即插即用多模态合成

本文研究了使用扩散模型生成图片以满足多种限制条件的问题。我们提出了一种基于去噪扩散概率模型的解决方案，该方法能够统一多个扩散模型，并引入一种新的可靠性参数，使得可以在采样时仅使用不同数据集上训练的现成模型来指导并满足多种限制条件的任务。该方法在多种标准的多模态任务上表现出了有效性。

Dec, 2022

MM-Diffusion：学习多模态扩散模型用于联合音频和视频生成

本文介绍了一种基于 Multi-Modal Diffusion 模型，利用两个耦合的自编码器进行序列多模态非线性去噪，提出了一种随机平移注意力块用于跨模态对齐，以实现音视频帧的生成并提高音视频质量

Dec, 2022

跨模态音乐和图像生成的离散对比扩散

通过提高输入与输出的互信息，利用条件离散对比扩散 (CDCD) 损失和两种对比扩散机制，将对比学习和传统变分目标相结合，我们成功地提高了多模式条件综合生成模型的输入输出对应性并取得了良好的结果。

Jun, 2022

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

音频驱动的预训练扩散模型生成与编辑

我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。

May, 2024