ScaleLong: 通过缩放网络长跳连接实现扩散模型更稳定的训练
通过对 U-Net 中的跳跃连接的作用进行深入研究,我们发现编码器和解码器之间聚合远距离信息的分层特征对于图像生成的内容和质量产生了重大影响。基于这一观察,我们提出了一种高效的生成调整框架 SCEdit,它使用名为 SC-Tuner 的轻量级调整模块来集成和编辑跳跃连接。此外,该框架还通过使用 Controllable SC-Tuner 注入不同条件来简化和统一多条件输入的网络设计,从而方便地扩展到可控图像合成领域。在文本到图像生成和可控图像合成任务上进行的广泛实验表明,我们的方法在效率和性能方面都优于其他方法。
Dec, 2023
通过对缩放去噪网络骨干和训练集的广泛割离实验,本研究探讨了扩大规模的扩散式文本到图像(T2I)模型的特性,发现在模型扩展方面,跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性,增加 Transformer 模块对于提高文本和图像的对齐比增加通道数量更加参数有效。在数据扩展方面,我们发现训练集的质量和多样性比简单的数据集大小更重要,增加标题密度和多样性可以提高文本和图像的对齐性能和学习效率。最后,我们提供了预测文本和图像对齐性能的缩放函数,函数依赖于模型规模、计算和数据集大小。
Apr, 2024
通过研究 Unet 在去噪扩散概率模型中的动态行为,我们系统评估了时间步长和核心 Unet 组件对最终输出的影响,发现其中的生成阶段和 Unet 在推断中的使用模式,进而识别出改进 DDPM 中的冗余以提高推断速度,同时在输出质量方面几乎没有损失。我们的目标是为推断过程指导更明智的优化策略并影响新模型设计。
Dec, 2023
我们利用扩散 U-Net 的潜力,提出了一种名为 “FreeU” 的简单而有效的方法,通过重新加权 U-Net 的跳跃连接和骨干特征图的贡献,结合两个组件的优势,大大提高了生成质量。
Sep, 2023
本文研究如何通过引入等变可学习的稳定器来解决跳跃连接引起的特征不一致性问题,从而提高神经架构搜索的效率和准确性,最终设计出了一系列表现优异的神经网络结构。
Aug, 2019
通过分析 U-net 架构的神经网络,发现其网络层对于领域转移非常敏感,特别是在浅层网络中。在移除最上层的跳跃连接之后,性能得到了显著提升,不仅对于领域转移具有积极的影响,对于领域内测试数据也有 10%至 13%的性能提升。
Feb, 2024
通过本研究,我们证明预训练网络以实现本地稳定性在复杂结构的网络中是有效的,并提出了一种称为本地稳定条件(LSC)的理论,它能最小化对数据和参数分布的假设。我们的实验结果表明,通过预训练满足 LSC 的前馈和递归网络通常能够提高最终性能。这项研究为实现任意复杂度的网络的稳定性提供了一种方法,该方法可以在大型增强数据集的预训练之前作为附加步骤,也可以作为在分析上找到稳定的初始状态的替代方法。
Aug, 2023
通过引入 UNet 架构,扩散概率模型已成为图像生成任务中的主导力量,文章提出了 Skip-Tuning 方法,在跳跃连接上实现了 100% 的 FID 改进,挑战了 ODE 采样器的限制。
Feb, 2024
基于文本到图像扩散模型的加速方法,提出了一种新的稳定扩散加速模块 SpeedUpNet(SUN),通过多步一致性损失和交叉注意力层来减少推理步骤,并消除对分类器的引导需求,比现有的 25 步骤 DPM-solver++ 模型快 10 倍以上。
Dec, 2023
提出了一种名为 UNet ++ 的新神经结构,通过解决 U-Net 和全卷积网络(FCN)的两个限制(未知最佳深度和过于严格的融合方案),实现了医学图像分割的语义和实例分割,从而提高了对象大小的分割质量,并加速了 UNet ++ 的推理速度。
Dec, 2019