- SD4Match:学习稳定扩散模型进行语义匹配
通过使用稳定扩散中 UNet 的中间输出作为鲁棒的图像特征图,将基本提示调整技术应用于稳定扩散,进一步引入了基于输入图像对局部细节的条件提示模块,从而显著提高了准确性;在 PF-Pascal、PF-Willow 和 SPair-71k 数据 - MMUni-paint: 一个统一框架的多模态图像修复方法,基于预训练扩散模型
提出了一种名为 Uni-paint 的多模态修复统一框架,基于 Stable Diffusion 预训练模型,支持无条件、文本驱动、笔画驱动、示例驱动等多种修复模态,无需特定数据集的任务特定训练,通过广泛的定性和定量评估表明,该方法在保持与 - 稳定扩散对三维场景了解多少?
通过探测扩散网络,研究不同的 3D 场景属性,我们发现 Stable Diffusion 在场景几何、支撑关系、阴影和深度方面表现优秀,但对遮挡不够有效。与其他大规模训练的模型相比,如 DINO 和 CLIP,我们发现 Stable Dif - EasyPhoto:智能 AI 照片生成器
该研究提出了一种名为 EasyPhoto 的新型 WebUI 插件,通过训练数张相关照片中的特定用户 ID 的数字化副本,使用训练好的模型生成 AI 照片,支持多人和不同风格的照片修改,并利用 SDXL 模型生成精美模板图像。
- QonFusion -- 高斯随机变量的量子方法:稳定扩散和布朗运动的应用
本研究提出了一种基于非参数量子电路生成高斯随机变量的策略,该方法用于取代传统的伪随机数生成器,并将量子随机数生成器 (QRNGs) 纳入扩散的经典模型。通过非参数量子策略,我们成功实现了在稳定扩散和布朗运动中进行模拟,从而摆脱了传统方法所需 - 从 LyCORIS 微调到模型评估的文本到图像自定义导航
文本到图像生成模型中的关键问题是稳定的扩散和微调方法的系统评估与参数调整,并提供了对微调参数细微影响的重要见解。
- 文字 - 图像模型:反事实解释的黑盒操作方法
该研究提出了一种基于蒸馏的黑盒逆因果解释方法,使用只有图像和其预测结果的信息生成对分类器预测进行改变所需的最少必要特征,从而达到与其他方法相当的解释效果。
- Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)
利用 Prompting4Debugging (P4D) 工具,我们发现了 Stable Diffusion(SD)模型中的新脆弱性,显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制,包括概念删除、负面提示和安全指导 - SLiMe:类似分割
使用大型视觉 - 语言模型,如 Stable Diffusion(SD),通过提出 SLiMe,可以以一张标注示例图像为代价,将图像分割为所需的任意粒度。在推理期间,SLiMe 能够以训练图像中分割区域的粒度对任意真实世界图像进行分割,只需 - 稳定扩散提示的嵌入操纵
我们提出并分析了一种直接改变提示嵌入而非提示文本的方法,将生成的文本到图像模型视为一个连续函数,并在图像空间和提示嵌入空间之间传递梯度,通过解决不同的用户交互问题,应用于优化图像空间的度量、在创造性任务中帮助用户导航图像空间以及包含用户在特 - MeDM:基于时间对应指导的图像扩散模型的视频到视频翻译
本研究介绍了一种高效有效的方法,MeDM,利用预训练的图像扩散模型进行视频到视频的翻译,保持一致的时间流。该提出的框架可以从场景位置信息(如常规 G 缓冲区)渲染视频,或对在真实场景中捕获的视频进行文本引导编辑。我们采用显式光流构建了一种实 - LayoutLLM-T2I: 从 LLM 中引导布局为文本到图像生成
本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法,采用了粗到细的范式来实现布局规划和图像生成,并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。
- 反向稳定扩散:生成此图像所使用的提示是什么?
预测生成式扩散模型所生成图像的文本提示,采用联合回归和多标签词汇分类目标的新型学习框架,结合白盒和黑盒模型解决生成文本提示的问题,并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明,该学习框架在预测文本提示任务上取得了出色的结果, - BAGM: 用于操纵文本到图像生成模型的后门攻击
本研究报告介绍了针对文本到图像生成模型的后门攻击(BAGM),该攻击通过修改嵌入式分词器和预训练的语言和视觉神经网络的行为来对文本到图像生成流程的各个阶段进行攻击。我们将 BAGM 的效果与其他最新出现的相关方法进行了比较,并为未来评估后门 - 划分与绑定注意力以提高生成语义护理
提出了一种名为 'Divide & Bind' 的方法,用于处理复杂的提示或涉及多个实体的情景,并实现改进的属性绑定,以忠实地合成所需的对象并在多个评估基准上展示卓越性能。
- 测量扩散模型在模仿人类艺术家方面的成功
现代扩散模型在人工智能图像生成中处于领先地位。本研究发现,这种成功部分归因于在互联网规模的数据上进行训练,其中包括版权作品。研究通过使用 CLIP 编码器进行艺术家的模仿,验证模型是否能够成功模仿人类艺术家。
- SDXL:提高高分辨率图像合成的潜在扩散模型
SDXL 是一种潜在扩散模型,用于文本到图像的合成,其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型,且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。
- 扩展 GUI 原型设计的扩散模型
本文提出了一种利用 Stable Diffusion 生成移动 UI 界面的方法,从而通过文本描述和 UI 组件来提高 GUI 原型设计的效率和速度。
- 图像扩散中的紧急对应
本文提出 DIffusion FeaTures (DIFT) 方法来确立图像之间的对应关系,在稳定扩散的情况下,DIFT 均能够在语义、几何和时间上优于弱监督方法以及其他对照组,尤其是在 SPair-71k 基准测试中,DIFT 相对于 D - 扩散模型的隐藏语言
本文针对文本到图像模型中的特征表征进行了分解,通过学习一个假的标记,将输入文本提示分解为一小组可解释元素,对现有良好的稳定扩散模型进行了应用,我们发现某些概念由特定实例主导,而其他概念则结合具体和抽象的关联术语,此外,我们的方法还可以实现单