稳定扩散模型的组合逆转
本文提出了一种基于进化策略的梯度自由框架,用于优化文本反演的过程,试图解决个性化文本生成中因梯度下降算法的内存消耗大、部署复杂等问题。实验结果表明,采用该方法生成的文本图像与采用梯度下降方法生成的相比,性能几乎没有损失,但能够获得更高的计算效率和更广泛的适用性。
Apr, 2023
本文介绍了一种基于无监督学习的方法,探讨反向问题 —— 如何从图像集合中发现代表每个图像的生成概念,进一步利用这些生成概念生成新的艺术和混合图像,并将其用作下游分类任务的一种表示。
Jun, 2023
通过结合多个提示进行图像生成的分散模型的构成性属性在本文中被利用,提出了对安全措施的攻击方法,并讨论了该发现对安全模型部署的影响。同时,也开启了对分散模型的概念算术和组合推理对安全机制的讨论。
Apr, 2024
通过解释扩散模型为基于能量的模型,在训练和测试阶段中将一组扩散模型组合在一起,结构化生成,该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像,解决了 DALLE-2 在对象属性方面的困难。
Jun, 2022
本文介绍了一种精确的图片逆向生成技术,实现了基于文本的图片编辑,通过引入 Pivotal inversion 和 NULL-text optimization 技术,以条件嵌入为导向,避免了模型权重的繁琐调整,并在真实照片上进行了高保真度编辑。
Nov, 2022
对于扩散模型,尽管反演性编辑取得了一定进展,但基于文本的图像编辑仍面临困难。本研究提出了一种无需显式反演的编辑方法(InfEdit),通过引入特殊方差调度和统一的注意力控制机制,实现了对图像的稳定编辑和真实还原,且在各种编辑任务中表现出强大的性能和快速的实时应用潜力。
Dec, 2023
本文针对文本到图像模型中的特征表征进行了分解,通过学习一个假的标记,将输入文本提示分解为一小组可解释元素,对现有良好的稳定扩散模型进行了应用,我们发现某些概念由特定实例主导,而其他概念则结合具体和抽象的关联术语,此外,我们的方法还可以实现单幅图像分解、偏置检测和缓解以及语义图像操作。
Jun, 2023
通过冻结的扩散模型,我们的方法 ViewNeTI 可以控制生成图像中物体的三维观点,以解决新颖视角合成的问题,并且拥有良好的语义细节和照片般逼真的单视图新颖视角合成预测。
Sep, 2023
本文基于扩散模型的可控属性,将语言结构与扩散过程相结合,进一步提高了 T2I 模型的组合能力,特别是更准确的属性绑定和更好的图像组合,这得益于跨注意层的帮助和语言洞察力。
Dec, 2022