稳定扩散模型的组合逆转

AAAIDec, 2023

Compositional Inversion for Stable Diffusion Models

Xu-Lu Zhang, Xiao-Yong Wei, Jin-Lin Wu, Tian-Yi Zhang, Zhao-Xiang Zhang...

TL;DR通过引入核心分布和空间正则化方法，我们的研究提出一种针对合成嵌入图像中过拟合问题的反转过程指导方法，使生成的图像中的概念更加多元和均衡。

Abstract

inversion methods, such as textual inversion, generate personalized images by incorporating concepts of interest provided by user images. However, existing methods often suffer from →

inversion methods textual inversion overfitting issues compositional embeddings spatial regularization approach

发现论文，激发创造

无梯度文本反演

本文提出了一种基于进化策略的梯度自由框架，用于优化文本反演的过程，试图解决个性化文本生成中因梯度下降算法的内存消耗大、部署复杂等问题。实验结果表明，采用该方法生成的文本图像与采用梯度下降方法生成的相比，性能几乎没有损失，但能够获得更高的计算效率和更广泛的适用性。

Apr, 2023

文本与图像生成模型实现无监督组合概念发现

本文介绍了一种基于无监督学习的方法，探讨反向问题 —— 如何从图像集合中发现代表每个图像的生成概念，进一步利用这些生成概念生成新的艺术和混合图像，并将其用作下游分类任务的一种表示。

Jun, 2023

无需训练的基于预训练扩散模型的语义视频合成

通过使用一个预训练的扩散模型，处理具有更大语义差异的复合视频，我们的研究提出了一个无需训练的流程，以确保输出的视觉协调性和跨帧连贯性。

Jan, 2024

用于克服扩散模型中概念抑制的概念算术

通过结合多个提示进行图像生成的分散模型的构成性属性在本文中被利用，提出了对安全措施的攻击方法，并讨论了该发现对安全模型部署的影响。同时，也开启了对分散模型的概念算术和组合推理对安全机制的讨论。

Apr, 2024

可组合扩散模型下的组合视觉生成

通过解释扩散模型为基于能量的模型，在训练和测试阶段中将一组扩散模型组合在一起，结构化生成，该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像，解决了 DALLE-2 在对象属性方面的困难。

Jun, 2022

使用引导扩散模型编辑真实图像的无文本倒置技术

本文介绍了一种精确的图片逆向生成技术，实现了基于文本的图片编辑，通过引入 Pivotal inversion 和 NULL-text optimization 技术，以条件嵌入为导向，避免了模型权重的繁琐调整，并在真实照片上进行了高保真度编辑。

Nov, 2022

无需反转的图像编辑与自然语言

对于扩散模型，尽管反演性编辑取得了一定进展，但基于文本的图像编辑仍面临困难。本研究提出了一种无需显式反演的编辑方法（InfEdit），通过引入特殊方差调度和统一的注意力控制机制，实现了对图像的稳定编辑和真实还原，且在各种编辑任务中表现出强大的性能和快速的实时应用潜力。

Dec, 2023

扩散模型的隐藏语言

本文针对文本到图像模型中的特征表征进行了分解，通过学习一个假的标记，将输入文本提示分解为一小组可解释元素，对现有良好的稳定扩散模型进行了应用，我们发现某些概念由特定实例主导，而其他概念则结合具体和抽象的关联术语，此外，我们的方法还可以实现单幅图像分解、偏置检测和缓解以及语义图像操作。

Jun, 2023

视角文本倒置：通过预训练 2D 扩散模型释放新颖视图综合

通过冻结的扩散模型，我们的方法 ViewNeTI 可以控制生成图像中物体的三维观点，以解决新颖视角合成的问题，并且拥有良好的语义细节和照片般逼真的单视图新颖视角合成预测。

Sep, 2023

无需训练的结构扩散引导的组合文本到图像合成

本文基于扩散模型的可控属性，将语言结构与扩散过程相结合，进一步提高了 T2I 模型的组合能力，特别是更准确的属性绑定和更好的图像组合，这得益于跨注意层的帮助和语言洞察力。

Dec, 2022