稳定扩散的交互式视觉学习
Diffusion Explainer 是第一个交互式可视化工具,可以解释稳态扩散是如何将文本提示转换为图像的,它紧密地集成了稳态扩散的复杂组件的视觉概述和其底层操作的详细解释,使用户可以通过动画和交互元素在多个抽象级别之间流畅转换。它能帮助用户发现提示对图像生成的影响,该工具在用户的 Web 浏览器中本地运行,不需要安装或专业硬件,并且可以拓宽公众对现代 AI 技术的理解。
May, 2023
DiffExplainer 是一个利用语言 - 视觉模型实现多模态全局可解释性的新型框架。DiffExplainer 根据优化的文本提示条件化扩散模型,合成最大化分类器的类输出和隐藏特征的图像,从而提供视觉工具来解释决策。此外,对生成的视觉描述的分析允许自动识别偏见和虚假特征,与常常依赖手动干预的传统方法相反。语言 - 视觉模型的跨模态可转移性还使得更容易用文本描述决策。我们进行了广泛的实验,包括广泛的用户研究,证明了 DiffExplainer 在生成解释模型决策的高质量图像方面的有效性,超过了现有的激活最大化方法,并且在自动识别偏见和虚假特征方面也取得了成功。
Apr, 2024
预测生成式扩散模型所生成图像的文本提示,采用联合回归和多标签词汇分类目标的新型学习框架,结合白盒和黑盒模型解决生成文本提示的问题,并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明,该学习框架在预测文本提示任务上取得了出色的结果,尤其在白盒模型上应用时效果最好,并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。
Aug, 2023
本文提出了一种利用 Stable Diffusion 生成移动 UI 界面的方法,从而通过文本描述和 UI 组件来提高 GUI 原型设计的效率和速度。
Jun, 2023
本研究针对 Stable Diffusion 模型的脆弱性,提出一种生成特定图像的对抗性提示框架,并通过揭示导致模型脆弱性的机制来证明方法的有效性。
Jan, 2024
通过使用稳定的扩散模型,DiffuGen 是一种简单且适应性强的方法,用于高效生成标记的图像数据集,以解决手动标记真实图像的耗时和成本昂贵的问题。论文介绍了 DiffuGen 的方法学,该方法将扩散模型的能力与无监督和监督的两种标签技术相结合,通过提示模板和文本倒置来增强扩散模型的能力。
Sep, 2023
通过可视化分析和实验结果,我们提出并回答三个研究问题,从可视概念和模型关注的区域的角度解释扩散过程,展示了在扩散过程中输出如何逐渐生成,通过不同时间步骤中的噪声去除程度和与基础可视概念之间的关系强调了可视概念的变化水平,从而为了解扩散机制提供了见解,并为进一步研究提供了奠基。
Feb, 2024
该论文提出了一种名为 DSD 的创新方法,它利用预训练的 text-to-image 扩散模型进行少样本判别性学习,并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响,并通过基于注意力的提示学习对模型进行微调,实现图文匹配,并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。
May, 2023
视觉计算领域因生成人工智能的出现而快速发展,介绍了扩散模型的基本数学概念、稳定扩散模型的实现细节和设计选择,以及包括个性化、条件设定、反转等在内的这些生成人工智能工具的重要方面的综述。此外,它还对基于扩散的生成和编辑的迅速增长的文献进行了全面的概述,按照生成介质的类型进行分类,其中包括 2D 图像、视频、3D 对象、运动和 4D 场景。最后,我们讨论了可用的数据集、度量标准、开放性挑战和社会影响。这个综述为研究人员、艺术家和从业者提供了一个直观的起点来探索这个令人兴奋的主题。
Oct, 2023
ToddlerDiffusion 是一种可解释的 2D 扩散图像合成框架,受到人类生成系统的启发,它将生成过程分解成简单且可解释的阶段,生成轮廓、调色板和详细彩色图像,不仅提高了整体性能,还实现了强大的编辑和交互能力。通过在像 LSUN-Churches 和 COCO 这样的数据集上进行广泛实验验证,我们的方法始终优于现有方法。ToddlerDiffusion 在 LSUN-Churches 上与 LDM 性能相匹配,同时以三倍速且架构大小减少 3.76 倍的速度运行。附加材料中提供了我们的源代码,并将公开访问。
Nov, 2023