Cocktail: 组合多模态控制以生成基于文本的图像
本文介绍了 Uni-ControlNet 的新方法,该方法利用不同的局部和全局控制并通过预训练的文本到图像扩散模型进行微调,使图像生成更具控制性和复合性。
May, 2023
提出一种神经网络框架 ControlNet 来控制大型预训练扩散模型以支持额外的输入条件,该模型能够以端到端的方式学习任务特定条件,并且学习具有鲁棒性,即使训练数据集很小(<50k);此外,训练 ControlNet 的速度与调整扩散模型的速度相同,模型可以在个人设备上训练。也可以在强大的计算集群上进行训练,适用于大量(数百万至数十亿)的数据;控制网络可以与大型扩散模型一起使用,以启用诸如边缘地图、分割地图、关键点等条件输入,进一步丰富了控制大型扩散模型的方法,促进了相关应用的发展。
Feb, 2023
通过修改跨注意力矩阵,在保持图像质量的同时改进控制能力,本研究以 ControlNet 为例,研究了几种现有的跨注意力控制方法的局限性,并提出了一种新的跨注意力操纵方法,通过定位描述来实现对生成图像的精细控制。
Feb, 2024
本研究主要关注在控制性文本生成 3D 场景方面的多视图控制网络架构,该网络结合额外的输入条件,如边缘、深度、法线和素描图,使用局部和全局嵌入来控制基础扩散模型,并通过优化实现 3D 生成,最终实现了高质量、可控的 3D 内容的生成。
Mar, 2024
图像合成领域取得了巨大的进展,在本文中,我们提出了一种新的控制架构 ControlNet-XS,它不受信息流动延迟的问题困扰,因此可以专注于学习控制任务。与现有的控制网络相比,我们的模型参数量少,推理和训练时间大约快两倍,生成的图像质量更高,控制精度更高。
Dec, 2023
通过引入 Spatial Guidance Injector(SGI)和 Diffusion Consistency Loss(DCL)方法,我们提出了一种更准确的可控端到端文本到图像生成框架,其中 SGI 提供了更准确的条件输入,DCL 加强了对生成输出的控制,实验证明了我们方法在各种条件下显著提升了生成图像的可控性和稳健性,优于现有最先进的可控文本到图像模型。
Mar, 2024
我们提出了 Compound Conditioned ControlNet(C3Net),这是一种新颖的生成神经架构,它从多种模态中获取条件并同时合成多模态内容(例如图像、文本、音频)。C3Net 将 ControlNet 架构适应到一个可生产的扩散模型及其可训练副本上。使用基于对比训练的模态特定编码器,C3Net 首先将多模态条件对齐到相同的语义潜空间,然后基于对齐的潜空间生成多模态输出,其语义信息使用称为 Control C3-UNet 的 ControlNet 类似架构进行组合。我们的模型通过学习和解释多模态条件而不仅仅在潜空间上进行线性插值,从而提供了一种改进的联合模态生成解决方案。此外,由于我们将条件对齐到统一的潜空间,C3Net 只需要一个可训练的 Control C3-UNet 来处理多模态语义信息。我们的模型在条件对齐阶段进行了单模态预训练,在相对稀缺的训练数据上优于未经预训练的对齐,从而展现了高质量的复合条件生成能力。我们提供了第一个高质量的三模态验证集,可定量验证 C3Net 在多模态生成方面优于或与最先进的方法相媲美。我们将发布我们的代码和三模态数据集。
Nov, 2023
我们提出了 AnyControl,这是一个支持多种不同控制信号任意组合的多控制图像合成框架,它使用了多模态的嵌入来引导生成过程,实现了对用户输入的整体理解,并通过广泛的定量和定性评估展示了高质量、忠实的生成结果。
Jun, 2024
FreeControl 是一种无需训练的可控文本生成方法,支持多种条件、架构和检查点,并在定性和定量实验中展现了卓越性能。
Dec, 2023
我们提供了一种双向集成的方法,将外部条件生成算法整合到一个密集预测方法中,并将其单独训练的图像生成过程合并到一个模型中。我们提出的 OmniControlNet 通过任务嵌入引导和文本嵌入引导,将条件生成和图像生成过程整合到一个模型中,从而显著降低了模型复杂性和冗余,并能够生成与条件文本到图像生成相媲美的图像。
Jun, 2024