C3Net：复合条件控制网络用于多模态内容生成

Nov, 2023

C3Net：复合条件控制网络用于多模态内容生成

C3Net: Compound Conditioned ControlNet for Multimodal Content Generation

Juntao Zhang, Yuehuai Liu, Yu-Wing Tai, Chi-Keung Tang

TL;DR我们提出了 Compound Conditioned ControlNet（C3Net），这是一种新颖的生成神经架构，它从多种模态中获取条件并同时合成多模态内容（例如图像、文本、音频）。C3Net 将 ControlNet 架构适应到一个可生产的扩散模型及其可训练副本上。使用基于对比训练的模态特定编码器，C3Net 首先将多模态条件对齐到相同的语义潜空间，然后基于对齐的潜空间生成多模态输出，其语义信息使用称为 Control C3-UNet 的 ControlNet 类似架构进行组合。我们的模型通过学习和解释多模态条件而不仅仅在潜空间上进行线性插值，从而提供了一种改进的联合模态生成解决方案。此外，由于我们将条件对齐到统一的潜空间，C3Net 只需要一个可训练的 Control C3-UNet 来处理多模态语义信息。我们的模型在条件对齐阶段进行了单模态预训练，在相对稀缺的训练数据上优于未经预训练的对齐，从而展现了高质量的复合条件生成能力。我们提供了第一个高质量的三模态验证集，可定量验证 C3Net 在多模态生成方面优于或与最先进的方法相媲美。我们将发布我们的代码和三模态数据集。

Abstract

We present compound conditioned controlnet, C3Net, a novel generative neural architecture taking conditions from multiple modalities and synthesizing multimodal contents simultaneously (e.g., image, text, audio).

compound conditioned controlnet generative neural architecture multimodal contents control c3-unet multimodal generation

发现论文，激发创造

C3LLM: 使用大型语言模型的条件多模式内容生成

我们介绍了 C3LLM（Conditioned-on-Three-Modalities Large Language Models），它是一个新颖的框架，将视频到音频、音频到文本和文本到音频三个任务结合在一起。C3LLM 以大型语言模型（LLM）结构为基础，作为不同模态对齐、综合给定条件信息并以离散方式进行多模态生成的桥梁。我们的贡献如下：首先，我们使用预训练音频码本为音频生成任务自适应了分层结构。具体而言，我们训练 LLM 从给定条件生成音频语义标记，并进一步使用非自回归变压器在层级中生成不同级别的声学标记以增强生成音频的保真度。其次，基于 LLM 最初设计用于具有下一个词预测方法的离散任务的直觉，我们使用离散表示进行音频生成，并将其语义含义压缩为声学标记，类似于向 LLM 添加 “声学词汇”。第三，我们的方法将以前的音频理解、视频到音频生成和文本到音频生成任务结合到一个统一的模型中，以端到端的方式提供更多的灵活性。我们的 C3LLM 通过各种自动化评估指标实现了改进的结果，与以前的方法相比，提供了更好的语义对齐。

May, 2024

ControlDreamer: 多视角控制网络的风格化三维生成

通过引入多视角 ControlNet 和强化学习模型 ControlDreamer，本研究在文本指导下实现了创意几何和风格的 3D 建模，同时提出了一个全面的 3D 风格编辑基准，证明该方法在质量和度量上优于现有的文本生成 3D 方法。

Dec, 2023

OmniControlNet：双阶段整合的条件图像生成

我们提供了一种双向集成的方法，将外部条件生成算法整合到一个密集预测方法中，并将其单独训练的图像生成过程合并到一个模型中。我们提出的 OmniControlNet 通过任务嵌入引导和文本嵌入引导，将条件生成和图像生成过程整合到一个模型中，从而显著降低了模型复杂性和冗余，并能够生成与条件文本到图像生成相媲美的图像。

Jun, 2024

Cocktail: 组合多模态控制以生成基于文本的图像

使用多模态混合、改进的控制规范和空间引导采样方法实现对文本条件扩散模型的多模态和空间细化控制，从而生成高品质的合成图像。

Jun, 2023

CM3: 互联网因果蒙特卡罗多模态模型

介绍了 CM3 模型，是一种因果掩模生成模型，用于训练多模态文件的大型语料库，可生成结构化文本或图像，支持双向上下文依赖，具有接近最先进性能的能力，能够通过单个模型完成零 - shot 任务的多模态生成、文本摘要、实体链接、实体消岐等。

Jan, 2022

条件感知神经网络对图像的控制生成

使用 Condition-Aware Neural Network（CAN）方法，通过动态操纵神经网络的权重来控制图像生成过程，CAN 在 ImageNet 上的类别条件图像生成和 COCO 上的文本到图像生成方面实现了显著的改进。

Apr, 2024

面向灵活、可扩展和自适应的多模态条件人脸合成

最近在多模态条件下的人脸合成方面取得的进展使得创造出了视觉上引人注目且准确对齐的面部图像成为可能。然而，当前的方法在可扩展性、灵活性和对控制强度的一劳永逸的处理上仍然面临问题，没有考虑不同模态之间条件熵（在给定某个条件下数据的不可预测性）的差异。为了解决这些挑战，我们引入了一种新颖的单模态训练方法，利用模态仿真器，并结合一种熵感知的模态自适应调制，以支持灵活、可扩展且可扩展的多模态条件下的人脸合成网络。我们的单模态训练通过仅利用单模态数据的模态仿真器，用模态特定的特征修饰条件并作为不同模态之间的链接器，完全学习了面部合成过程中的每个模态控制以及不同模态之间的协作。熵感知的模态自适应调制可根据模态特定的特征和给定条件精细调整扩散噪声，使得沿着去噪轨迹有良好的信息化步骤，最终导致高保真度和高质量的合成结果。我们的框架改进了在各种条件下的多模态人脸合成，通过我们全面的实验结果证明，超过了当前方法在图像质量和保真度方面的表现。

Dec, 2023

Uni-ControlNet: 文本到图像扩散模型全控制

本文介绍了 Uni-ControlNet 的新方法，该方法利用不同的局部和全局控制并通过预训练的文本到图像扩散模型进行微调，使图像生成更具控制性和复合性。

May, 2023

UniControl：一种用于自然环境中可控视觉生成的统一扩散模型

UniControl 是一种新的可控生成基础模型，集成了多种可控因素，实现了基于任意语言提示的像素级精确图像生成，并通过多任务学习，使其具有适应不同可控条件的能力，实验证明其性能优于其他同类型模型。

May, 2023

为文本 - 图像扩散模型添加条件控制

提出一种神经网络框架 ControlNet 来控制大型预训练扩散模型以支持额外的输入条件，该模型能够以端到端的方式学习任务特定条件，并且学习具有鲁棒性，即使训练数据集很小（<50k）；此外，训练 ControlNet 的速度与调整扩散模型的速度相同，模型可以在个人设备上训练。也可以在强大的计算集群上进行训练，适用于大量（数百万至数十亿）的数据；控制网络可以与大型扩散模型一起使用，以启用诸如边缘地图、分割地图、关键点等条件输入，进一步丰富了控制大型扩散模型的方法，促进了相关应用的发展。

Feb, 2023