InstaFlow: 高质量的扩散式文本到图像生成只需一步
本研究提出了一种基于扩散模型的任意时间图像生成方法,使用两个嵌套扩散过程进行快速迭代细化,并允许根据用户的瞬时偏好进行灵活调度。在 ImageNet 数据集和稳定扩散的文本到图像生成实验中,我们显示了我们的中间生成质量大大超过原始扩散模型,同时最终缓慢的生成结果仍然可比较。
May, 2023
通过分析偏差-方差分解和实验观察,我们提出了一种基于空间拟合误差减少的蒸馏模型(SFERD),该模型利用教师模型的注意力引导和设计的语义梯度预测器来降低学生模型的拟合误差,从而在少量函数评价中实现高质量的样本生成,并在CIFAR-10上取得了5.31的FID和ImageNet 64×64上取得了9.39的FID,超过了现有的扩散方法。我们的研究突出了模型的本质去噪能力,为扩散蒸馏提供了新的视角。
Nov, 2023
高频率促进适应(HiPA)是一种参数高效的方法,通过训练一步、低秩适配器来增强先进扩散模型中高频率能力的不足,使其能够在单一步骤中生成高质量图像。与渐进蒸馏相比,HiPA在一步文本到图像生成中具有更好的性能(FID-5k在MS-COCO 2017上从37.3降至23.8),并具有28.6倍的训练加速(108.8到3.8 A100 GPU天),仅需要0.04%的训练参数(77.4亿降至330万)。
Nov, 2023
对于高维感知数据, 扩散模型生成通过将数据从噪声逆向转换而得, 并已成为一种强大的生成建模技术。最近, 矫正流是一种将数据和噪声连接在一条直线上的生成模型表达形式。本研究通过偏向感知相关尺度来改进现有的噪声采样技术, 以训练矫正流模型。通过大规模研究, 我们证明了这种方法相对于已有的扩散公式在高分辨率文本到图像合成方面的优越性能。此外, 我们提出了一种基于Transformer的文本到图像生成架构, 该架构利用了两种模态的不同权重, 并实现了图像和文本记号之间的双向信息流, 从而改善了文本理解、排版和人体偏好评级。我们证明了这种架构遵循可预测的扩展趋势, 并通过各种度量标准和人体评估来证实验证损失越低, 文本到图像合成越好。我们的最大模型超过了现有的最先进模型, 我们将公开我们的实验数据、代码和模型权重。
Mar, 2024
本研究旨在解决生成图像与提供的提示之间的无缝对齐问题,通过引入“初始噪声优化”(InitNO)方法,通过评估初始噪声,并通过噪声优化来生成符合文本提示的图像。
Apr, 2024
大规模扩散模型在生成任务中取得了显著的性能。矫正流是一种新的生成模型类别,在各个领域展现出了优越的性能。通过理论和实验证据,我们展示了基于矫正流的方法与扩散模型具有相似的功能,可以作为有效的先验。此外,基于矫正流的先验方法在图像反转方面表现出优越的性能。
Jun, 2024
使用压缩和模型大小优化的方法,本文旨在开发小型高效的一步扩散模型,通过探索推理步骤和模型大小的联合压缩,基于强大的修正流框架,将扩散模型转化为一步生成器。
Jul, 2024
本研究解决了在3D生成中将Score Distillation Sampling(SDS)适配到基于流的扩散模型的不足。提出的DreamCouple方法通过纠正流模型来寻找耦合噪声,并采用独特的耦合匹配(UCM)损失,成功改善了过平滑问题,提升了NeRF和3D高斯喷溅的性能,具有显著的影响力。
Aug, 2024
本研究解决了扩散模型在视觉生成中生成速度慢的问题,提出了一种新颖的方法,即不将直线性作为主要训练目标,而是关注于达到一阶近似的ODE路径。我们的实验表明,新的改进扩散方法在降低训练成本的同时,简化了训练过程,并在性能上优于传统的改进流方法。
Oct, 2024
本研究解决了扩散模型在生成速度上的不足,提出了整流扩散的新方法,认为直线不是整流的重要训练目标,而是应关注近似一阶的ODE路径。研究结果显示,该方法不仅简化了训练过程,还能在更低的训练成本下实现优越的性能。
Oct, 2024