透明图像层扩散的潜在透明度

Feb, 2024

Transparent Image Layer Diffusion using Latent Transparency

Lvmin Zhang, Maneesh Agrawala

TL;DR我们提出了 LayerDiffusion 方法，使得大规模预训练潜在扩散模型能够生成透明图像。该方法通过将 alpha 通道透明度编码到预训练潜在扩散模型的潜在流形中，学习了 “潜在透明度”。通过调整潜在空间并微调预训练模型，可以将任何潜在扩散模型转换为透明图像生成器。我们通过人机协作收集 1M 个透明图像层对来训练该模型，并展示了潜在透明度在不同开源图像生成器和条件控制系统中的应用。用户研究发现，在大多数情况下（97%），用户更喜欢我们本地生成的透明内容，而不是之前的临时解决方案，如生成和镶嵌。用户还报告称我们生成的透明图像的质量可与 Adobe Stock 等真实商业透明资产相媲美。

Abstract

We present layerdiffusion, an approach enabling large-scale pretrained latent diffusion models to generate transparent images. The method allows generation of single →

layerdiffusion transparent images latent transparency pretrained latent diffusion model user study

发现论文，激发创造

Text2Layer: 使用潜在扩散模型的分层图像生成

以分层图片生成的视角，从生成图像转变为同时生成背景、前景、图层掩码和合成图像。提出的方法可实现更好的合成工作流和高质量图像输出，同时得到比图像分割产生的图层掩码更高质量的效果。实验结果表明该方法能够生成高质量的分层图片，为未来的工作提供了基准。

Jul, 2023

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

DiffuseTrace：一种透明且灵活的潜在扩散模型水印方案

通过使用 DiffuseTrace 技术，我们可以在所有生成的图像中嵌入无形的水印，以便进行未来的语义检测，而不会损害图像质量。

May, 2024

使用潜在扩散模型进行高分辨率图像合成

通过在预训练的自编码器的潜在空间中应用扩散模型，引入交叉注意力层到模型体系结构中，以更少的计算要求取得接近最优的性能，实现高分辨率合成，缩小像素级 DMs 对计算资源的需求。

Dec, 2021

DiffHarmony：潜在扩散模型与图像融合

本研究旨在解决图像融合的问题，通过调整图像的前景与背景以达到统一的视觉一致性。研究采用预训练的潜在扩散模型生成和初步处理模糊的初始图像，通过两种策略（在推理过程中利用高分辨率图像和引入额外的优化阶段）进一步提高初步处理后图像的清晰度，并通过在 iHarmony4 数据集上进行大量实验证明了我们方法的优越性。

Apr, 2024

层级扩散：使用扩散模型进行分层控制图像编辑

本文提出了一种基于语义的分层控制图像编辑方法 ——LayerDiffusion，通过对大规模文本转图像模型的利用，结合分层控制优化策略和分层扩散训练，实现特定主题属性的非刚性编辑和属性修改，同时保持其独特的特征并无缝地融入新背景，而在扩散过程中采用迭代引导策略生成与文字描述相符的最终图像，在实验结果中发现 LayerDiffusion 能够生成高度一致、与给定文本描述密切符合的图像，同时保持与输入图像相似的特征，超越了当前领先的图像编辑方法，开启了图像编辑的新可能性。

May, 2023

平滑扩散：精心创造扩散模型中的平滑潜在空间

最近，扩散模型在文本到图像 (T2I) 生成方面取得了显著进展，合成出高保真度和多样性内容的图像。然而，扩散模型内的潜在空间平滑性仍然很少被研究。我们通过观察到微小的潜在变化导致明显的视觉波动来揭示扩散潜在空间的非平滑性。为了解决这个问题，我们提出了 Smooth Diffusion，这是一种新类别的扩散模型，既高效又平滑。具体而言，我们引入了逐步变化规范化，以确保任意输入潜在的变化与输出图像的变化之间的比例在扩散训练的任何步骤中都是恒定的。此外，我们设计了插值标准差 (ISTD) 度量，以有效评估扩散模型的潜在空间平滑性。广泛的定量和定性实验表明，Smooth Diffusion 在 T2I 生成以及其他各种下游任务中都表现出更好的解决方案。Smooth Diffusion 作为一个即插即用的 Smooth-LoRA 与不同的社区模型配合使用。代码可在此 https 的 URL 获取。

Dec, 2023

StereoDiffusion：基于潜在扩散模型的无训练立体图像生成

为满足多种 XR 设备的需求，我们介绍了一种名为 StereoDiffusion 的方法，该方法与传统的修复流程不同，无需训练即可轻松使用，并与原始的 Stable Diffusion 模型完美集成。我们的方法通过修改潜变量，能够快速生成立体图像对，无需微调模型权重或对图像进行后处理。使用原始输入生成左图像并为其估计视差图，我们通过 Stereo Pixel Shift 操作生成右图像的潜向量，同时辅以 Symmetric Pixel Shift Masking Denoise 和 Self-Attention Layers Modification 方法，将右图像与左图像对齐。此外，我们提出的方法在整个立体生成过程中保持了高水平的图像质量，在各种定量评估中取得了最先进的成绩。

Mar, 2024

LayerDiff：通过层级协作扩散模型，探索文本引导的多层可组合图像合成

本文提出了一种称为 LayerDiff 的分层协同扩散模型，专门用于文本引导的多层可组合图像合成，该模型能够生成与传统的整体图像生成方法相媲美的高质量多层图像，并实现了更广泛的可控生成应用，包括分层图像编辑和风格迁移。

Mar, 2024

使用分层扩散笔简化图像编辑

基于层次扩散刷子的实时图像编辑技术结合了图像编辑概念，通过精细的区域导向修改中间去噪步骤，保持输入图像的完整性和上下文，并在高端消费级 GPU 上在 140 毫秒内呈现 512x512 图像的单个编辑，从而实现实时反馈和候选编辑的快速探索。通过用户研究验证了方法和编辑系统的可行性和有效性，对比了现有技术如 InstructPix2Pix 和 Stable Diffusion Inpainting 在图像优化方面的表现。该方法在对象属性调整、错误修正和顺序提示式对象放置和操作等各种任务上表现出有效性，展示了它提升创作工作流程的多功能性和潜力。

May, 2024