Diff-Plugin:为基于扩散的低层任务注入新的细节
通过使用预先训练的逆模型设计的损失,利用扩散模型的生成控制能力,我们引入了 Steered Diffusion,这是一个通用的框架,用于实现基于扩散模型的逼真零样本条件图像生成,以在推理时引导扩散模型的图像生成过程。我们的实验表明,与最先进的基于扩散的即插即用模型相比,我们的框架在多种任务上如修补、着色、文本引导的语义编辑和图像超分辨率方面有明显的定性和定量改进,同时增加了可忽略的额外计算成本。
Sep, 2023
提出一种新的框架,使用户能够为每个图像碎片自定义更改量,增强了现代扩散模型的灵活性和表达能力,且无需模型训练或微调,可直接应用于现有模型,量化和定性结果表明,该方法实现了更好的可控性,并可产生现有模型无法达到的结果。
Jun, 2023
我们提出了 DiffEditor 方法,利用图像提示和文本提示来改善细粒度的图像编辑,通过在扩散采样中引入局部组合的随机微分方程 (SDE),梯度引导和时间旅行策略,我们的方法在各种细粒度图像编辑任务中取得了最先进的性能。
Feb, 2024
提出了一种名为 Patch Diffusion 的通用 Patch-wise 训练框架,其核心创新是新的条件分数函数,它在原始图像的 Patch 级别包括 Patch 位置作为附加坐标通道,并且通过训练在多个尺度上对 Patch 大小进行随机和多样化,从而达到显著减少训练时间成本同时提高数据效率以帮助更广泛的用户学习扩散模型。
Apr, 2023
扩散模型在图像生成和编辑领域取得了显著的成功。我们提出了一种创新的框架,其中包含一个修正模块,用残差特征调节扩散模型权重,以填补编辑过程中准确性的差距。此外,我们引入了一种新的学习范式,旨在在编辑过程中最小化错误传播。通过大量实验证明,我们的提议框架和训练策略在各种去噪步骤下实现了高保真的重建和编辑结果,并在定量指标和质量评估方面表现出色。此外,我们还通过图像到图像的转换和跨领域图像编辑等多个应用探索了模型的泛化能力。
Dec, 2023
构建广义模型以同时解决多个计算机视觉任务是一个有趣的方向,本文探索基于扩散的视觉通用模型,将不同类型的密集预测任务统一为条件图像生成,并重新调整预训练的扩散模型,我们在四种不同类型的任务上实验证明了与其他视觉通用模型竞争性的性能。
Jun, 2024
本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion,并通过优化扩散模型潜在空间实现精确的空间控制。
Jun, 2023
本文提出了一种基于条件扩散模型的统一框架,用于图像到图像的转换,并在四个具有挑战性的图像到图像任务中测试了这个框架,即上色,修复,裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线,无需任务特定的超参数调整,架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响,并通过实证研究证明了自我关注在神经结构中的重要性。重要的是,我们提倡一个基于 ImageNet 的统一评估协议,具有人工评估和样本质量得分(FID,Inception Score,预训练 ResNet-50 的分类准确度和与原始图像的感知距离),我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后,我们展示了一个通用的,多任务扩散模型的执行效果与任务特定的专家模型相当或更好。
Nov, 2021
本研究扩展现有单流程扩散管线到多任务多模态网络,通过可共享、可交换的多流程跨模式模块,将文本到图像、图像到文本等多流和变异处理统一在一个模型中,实现了风格和语义的解耦、双重和多重上下文混合等并发处理。实验证明,该框架性能优越,可启发基于扩散的通用人工智能研究。
Nov, 2022
这篇综述论文全面地评估了扩散模型技术,并探讨了它们与其他深度生成模型的相关性,建立了理论基础。同时,该论文还总结了扩散模型在医学、遥感和视频等领域应用的情况,提供了常用基准和评估指标的概述,以及针对三个主要任务的扩散模型技术的全面评估。最后,作者指出当前扩散模型的局限性,并提出了未来研究的七个有趣方向。这篇综述论文旨在加深人们对于在低层次视觉任务中的去噪扩散模型领域的全面理解。
Jun, 2024