个性化扩散模型的改进方法

Jul, 2024

An Improved Method for Personalizing Diffusion Models

HTML

PDF

Yan Zeng, Masanori Suganuma, Takayuki Okatani

TL;DR我们提出的方法旨在在融合新信息的过程中保留模型的原始知识，从而产生优越的结果，同时需要比Dreambooth和文本反转更少的训练时间。

Abstract

diffusion models have demonstrated impressive image generation capabilities. personalized approaches, such as →

发现论文，激发创造

构建桥梁：理解和扩展扩散生成模型

本研究重新考虑扩散模型的总体框架，将其视为具有未观察到扩散轨迹的潜在变量模型，并应用于数据不受限制的领域。利用最大似然估计，我们表明模型构建和潜在路径的插补都可以构造扩散桥过程，实现端点的确定值和约束条件，并提供一套系统的研究和工具，进而提出了学习扩散生成模型的第一个理论误差分析和学习不同离散和受限领域数据的简单而统一的方法。实验证明，我们的方法在生成图像、语义分段和3D点云方面表现出色。

Aug, 2022

扩散模型：方法和应用综述

本文概述了“扩散模型”在图像合成、视频生成、分子设计等领域中的应用, 并将相关研究分为三大类:高效采样、改进似然估计和处理具有特殊结构的数据。此外，还探讨了将扩散模型与其他生成模型相结合以获得更好结果的潜能，在计算机视觉、自然语言生成、时态数据模型等领域具有广泛的应用。本文旨在提供一个全面的扩散模型综述，指出其重点研究领域并指向未来的研究方向。

Sep, 2022

扩增模型与检索中的数据增强视角

本文系统评估了扩散模型生成图像的现有方法，并研究了新的扩展方式以评估它们对数据增强的益处。作者发现，将扩散模型个性化到目标数据的方法优于简单的提示策略，但使用扩散模型的训练数据，通过简单的最近邻检索程序，直接提高下游性能。此项研究揭示了扩散模型在数据增强方面的局限性，同时也突显了其在生成新训练数据方面的潜力，以提高在简单的下游视觉任务中的性能。

Apr, 2023

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

在任何场景中生成任何物体

我们提出了一种简单高效的数据增强训练策略，通过插入适配器层来引导扩散模型仅专注于对象身份，使得我们的模型具备控制每个生成个性化对象的位置和大小的能力，并提出了区域引导抽样技术来保持生成图像的质量和保真度。

Jun, 2023

DreamDistribution: 基于提示分布学习的文本-图像扩散模型

通过使用软提示，我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型，使得可以从一组参考图像中借鉴共性，并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示，从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力，并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性，比如文本到3D的转换，并通过自动评估和人工评估的定量分析证明了我们方法的有效性。

Dec, 2023

基于视觉概念驱动的文字到图像扩散模型的图像生成

我们提出了一个概念驱动的文本到图像（TTI）个性化框架，通过学习用户提供的图像示例中的概念，以及一种交替优化过程，进一步改进了现有的TTI模型，使其能够生成具有多个交互概念的图像。

Feb, 2024

快速个性化的文本到图像合成与注意力注入

我们提出了一种有效且快速的方法，可在不进行任何微调的情况下生成个性化图像，并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层，将自定义概念合并到生成图像中，以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。

Mar, 2024

利用有损扩散模型增强图像布局控制

扩散模型为一种强大的生成模型，能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容，然而，仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制，而这取决于初始噪声分布。本文探讨了两种改进方法，并演示了当这两种方法结合使用时可以获得更好的性能。

May, 2024

InsertDiffusion: 无需训练的扩散架构实现对象的身份保持可视化

该论文介绍了InsertDiffusion，一种新颖的、无需训练的扩散架构，可以高效地将对象嵌入图像并保持其结构和特征，通过将生成任务分解为独立步骤，该方法为产品设计和市场营销中的快速、可适应的可视化提供了可扩展的解决方案，并在图像逼真度和与输入条件对齐方面展现了优异性能。

Jul, 2024