稳定扩散的交互式视觉学习

Apr, 2024

Interactive Visual Learning for Stable Diffusion

Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng...

TL;DRDiffusion Explainer 是第一个交互式可视化工具，通过动画和交互元素全面解释了 Stable Diffusion 如何将文本提示转化为图像。这个工具不需要安装或专门硬件，通过用户的 web 浏览器访问，旨在推动人工智能教育的民主化，扩大公众的获取范围。

Abstract

diffusion-based generative models' impressive ability to create convincing images has garnered global attention. However, their complex internal structures and operations often pose challenges for non-experts to grasp. We introduce →

diffusion-based generative models diffusion explainer stable diffusion visualization tool democratizing ai education

发现论文，激发创造

Diffusion Explainer: 文本到图像稳定扩散的可视化解释

Diffusion Explainer 是第一个交互式可视化工具，可以解释稳态扩散是如何将文本提示转换为图像的，它紧密地集成了稳态扩散的复杂组件的视觉概述和其底层操作的详细解释，使用户可以通过动画和交互元素在多个抽象级别之间流畅转换。它能帮助用户发现提示对图像生成的影响，该工具在用户的 Web 浏览器中本地运行，不需要安装或专业硬件，并且可以拓宽公众对现代 AI 技术的理解。

May, 2023

Diffexplainer: 基于扩散模型的跨模态全局解释

DiffExplainer 是一个利用语言 - 视觉模型实现多模态全局可解释性的新型框架。DiffExplainer 根据优化的文本提示条件化扩散模型，合成最大化分类器的类输出和隐藏特征的图像，从而提供视觉工具来解释决策。此外，对生成的视觉描述的分析允许自动识别偏见和虚假特征，与常常依赖手动干预的传统方法相反。语言 - 视觉模型的跨模态可转移性还使得更容易用文本描述决策。我们进行了广泛的实验，包括广泛的用户研究，证明了 DiffExplainer 在生成解释模型决策的高质量图像方面的有效性，超过了现有的激活最大化方法，并且在自动识别偏见和虚假特征方面也取得了成功。

Apr, 2024

反向稳定扩散：生成此图像所使用的提示是什么？

预测生成式扩散模型所生成图像的文本提示，采用联合回归和多标签词汇分类目标的新型学习框架，结合白盒和黑盒模型解决生成文本提示的问题，并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明，该学习框架在预测文本提示任务上取得了出色的结果，尤其在白盒模型上应用时效果最好，并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。

Aug, 2023

扩展 GUI 原型设计的扩散模型

本文提出了一种利用 Stable Diffusion 生成移动 UI 界面的方法，从而通过文本描述和 UI 组件来提高 GUI 原型设计的效率和速度。

Jun, 2023

通过有针对性的攻击揭示稳定扩散中的漏洞

本研究针对 Stable Diffusion 模型的脆弱性，提出一种生成特定图像的对抗性提示框架，并通过揭示导致模型脆弱性的机制来证明方法的有效性。

Jan, 2024

DiffuGen：使用稳定扩散模型生成带标签图像数据的自适应方法

通过使用稳定的扩散模型，DiffuGen 是一种简单且适应性强的方法，用于高效生成标记的图像数据集，以解决手动标记真实图像的耗时和成本昂贵的问题。论文介绍了 DiffuGen 的方法学，该方法将扩散模型的能力与无监督和监督的两种标签技术相结合，通过提示模板和文本倒置来增强扩散模型的能力。

Sep, 2023

通过视觉分析解释生成扩散模型以实现可解释的决策过程

通过可视化分析和实验结果，我们提出并回答三个研究问题，从可视概念和模型关注的区域的角度解释扩散过程，展示了在扩散过程中输出如何逐渐生成，通过不同时间步骤中的噪声去除程度和与基础可视概念之间的关系强调了可视概念的变化水平，从而为了解扩散机制提供了见解，并为进一步研究提供了奠基。

Feb, 2024

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023

视觉计算扩散模型的最新进展

视觉计算领域因生成人工智能的出现而快速发展，介绍了扩散模型的基本数学概念、稳定扩散模型的实现细节和设计选择，以及包括个性化、条件设定、反转等在内的这些生成人工智能工具的重要方面的综述。此外，它还对基于扩散的生成和编辑的迅速增长的文献进行了全面的概述，按照生成介质的类型进行分类，其中包括 2D 图像、视频、3D 对象、运动和 4D 场景。最后，我们讨论了可用的数据集、度量标准、开放性挑战和社会影响。这个综述为研究人员、艺术家和从业者提供了一个直观的起点来探索这个令人兴奋的主题。

Oct, 2023

幼儿扩散：快速可解释可控扩散模型

ToddlerDiffusion 是一种可解释的 2D 扩散图像合成框架，受到人类生成系统的启发，它将生成过程分解成简单且可解释的阶段，生成轮廓、调色板和详细彩色图像，不仅提高了整体性能，还实现了强大的编辑和交互能力。通过在像 LSUN-Churches 和 COCO 这样的数据集上进行广泛实验验证，我们的方法始终优于现有方法。ToddlerDiffusion 在 LSUN-Churches 上与 LDM 性能相匹配，同时以三倍速且架构大小减少 3.76 倍的速度运行。附加材料中提供了我们的源代码，并将公开访问。

Nov, 2023