Diffusion U-Net 中的免费午餐
通过研究某些生成式分层模型,本文引入了 U-Net 架构的新解释,它是一种在语言和图像领域广泛使用的树状结构图模型。我们演示了 U-Net 如何自然地在这些生成式分层模型中实现置信传播去噪算法,并以此高效逼近去噪函数。此外,我们讨论了这些发现对生成式分层模型中扩散模型的更广泛影响,还证明了卷积神经网络 (ConvNets) 的传统架构在这些模型中非常适合分类任务,从而突显出生成式分层模型在语言和图像领域中建模复杂数据分布的多功能性。
Apr, 2024
通过研究 Unet 在去噪扩散概率模型中的动态行为,我们系统评估了时间步长和核心 Unet 组件对最终输出的影响,发现其中的生成阶段和 Unet 在推断中的使用模式,进而识别出改进 DDPM 中的冗余以提高推断速度,同时在输出质量方面几乎没有损失。我们的目标是为推断过程指导更明智的优化策略并影响新模型设计。
Dec, 2023
本篇研究提出了一种基于 Vision Transformers 构建的简单通用的 U-ViT 架构,通过对时间、条件和噪声图像块等所有输入采用标记方法,并在浅层和深层之间采用长跳过连接,实现与同等大小 CNN-based 的 U-Net 相似的无条件和类条件图像生成,以及文本到图像生成任务的优化,具有不错的 FID 得分。该研究结果表明,对于基于扩散的图像建模,长跳过连接至关重要,而 CNN-based U-Net 中的下采样和上采样算子并非总是必要的。
Sep, 2022
通过在 U-Net 结构中加入融合模块以减小编解码器之间的语义差距,我们提出了一种名为 FusionU-Net 的新型分割网络,经过在多个病理图像数据集上的广泛实验评估,证明了 FusionU-Net 相较于其他竞争方法具有更好的性能,我们认为我们的融合模块比现有网络的设计更加有效,且可以轻松嵌入其他网络以进一步提高模型性能。
Oct, 2023
通过引入 UNet 架构,扩散概率模型已成为图像生成任务中的主导力量,文章提出了 Skip-Tuning 方法,在跳跃连接上实现了 100% 的 FID 改进,挑战了 ODE 采样器的限制。
Feb, 2024
在医学图像分割中,通过探索 U-Net 中 skip 连接的潜在弱点,我们提出了 UDTransNet 框架,使用 Dual Attention Transformer (DAT) 和 Decoder-guided Recalibration Attention (DRA) 模块来解决编码器和解码器之间的语义差距,从而提高医学图像的分割效果。
Dec, 2023
Diffusion models have gained attention in image synthesis, and this paper introduces DeepCache, a training-free paradigm that accelerates diffusion models by capitalizing on temporal redundancy in denoising steps and achieving a speedup factor of 2.3x for Stable Diffusion v1.5 and 4.1x for LDM-4-G without significant decline in CLIP Score or FID on ImageNet.
Dec, 2023
通过对 UNet 编码器的全面研究,我们发现编码器特征变化温和,而解码器特征在不同时间步长间存在显著变化。根据这一观察,我们引入了一种简单而有效的编码器传播策略,以加速各种任务的扩散抽样。此外,我们还引入了一种先验噪声注入方法来改善生成图像的纹理细节。在不使用任何知识蒸馏技术的情况下,我们的方法能够加快 Stable Diffusion(SD)和 DeepFloyd-IF 模型的抽样速度分别为 41% 和 24%,同时保持高质量的生成性能。
Dec, 2023
本文提出了一个设计和分析通用 U-Net 体系结构的框架,介绍了它们在编码器和解码器中的作用,通过预处理与 ResNets 的相关性及其高分辨率缩放极限,为 PDE 模型、图像分割和扩散模型提供了更好的性能,并提出设计新的 U-Net 架构以便超越方形外的多种问题
May, 2023