在文本图像生成模型中定位和编辑知识

Oct, 2023

在文本图像生成模型中定位和编辑知识

Localizing and Editing Knowledge in Text-to-Image Generative Models

Samyadeep Basu, Nanxuan Zhao, Vlad Morariu, Soheil Feizi, Varun Manjunatha

TL;DR文本到图像扩散模型研究了知识表示和视觉特征，采用因果中介分析方法来理解大规模文本到图像扩散模型中不同视觉属性相关的知识是如何存储的，并发现在条件 UNet 的一组组件中分布着不同属性的知识。同时，发现在公共文本到图像模型中，只存在一个因果状态，这在其他语言模型中是不同的。基于这种观察，引入了一种快速、无需数据的模型编辑方法 Diff-QuickFix，可以在短时间内编辑（删除）模型中的概念，提供了 1000 倍的加速和与现有微调方法相当的编辑性能。

Abstract

text-to-image diffusion models such as Stable-Diffusion and Imagen have achieved unprecedented quality of photorealism with state-of-the-art FID scores on MS-COCO and other generation benchmarks. Given a caption, image generation requires fine-grained knowledge about attributes such as

text-to-image diffusion models knowledge representation visual attributes causal mediation analysis model editing

发现论文，激发创造

文本到图像生成模型中的机制性知识定位

通过定位知识，可以在文本到图像模型中实现更高效的模型编辑，提供了对基于定位的文本到图像模型编辑中成功和失败的更好视角。

May, 2024

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023

文本到图像扩散模型是零样本分类器

通过使用扩散模型的去噪能力作为代理，将零样本分类器应用于 Imagen，探究其知识方面并与 CLIP 进行比较，结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当，同时在形状 / 纹理偏差测试方面取得了最先进的结果，能够成功地执行属性绑定，而 CLIP 则不能。因此，我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。

Mar, 2023

文本到图像生成模型中的构成问题的理解和减轻

通过研究基于组合性失败模式，我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因，并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进，同时不降低模型的 FID 分数。

Jun, 2024

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

TextCraftor: 您的文本编码器可以成为图像质量控制器

通过提出的 fine-tuning 方法 TextCraftor，我们可以增强 Stable Diffusion 使用的 CLIP 文本编码器，从而在定量基准和人类评估方面实现了显著改进，并且我们的技术还通过不同奖励的细调文本编码器的插值使得可以进行可控的图像生成，同时我们也证明了 TextCraftor 与 UNet finetuning 可以相互独立并且结合以进一步提高生成质量。

Mar, 2024

预训练的文本到图像扩散模型是多用途控制表征学习器

使用预先训练的文本到图像扩散模型构建稳定的控制表示，从而实现细粒度场景理解和学习复杂控制策略。

May, 2024

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023