文本到图像矫正流作为即插即用的先验
我们介绍了修正流(即沿最短路径连接两个分布的神经常微分方程模型)的概念及其在各种相关任务中的应用,它能够为生成建模和域迁移等提供统一解决方案,并且在图像生成、图像翻译和域适应方面表现出优秀的性能。
Sep, 2022
透过使用 Rectified Flow 方法,本论文将 Stable Diffusion (SD) 转变为一步模型,创造了首个具有 SD 水平图像质量的逐步扩散型文本到图像生成器 InstaFlow,并大幅超越先前的最先进技术 progressive distillation。
Sep, 2023
通过预训练的流模型,利用理论上合理的加权方案,提出一种无需微调的图像逆向方法,显著减少了手动调整的工作量,并在高维数据集上进行了广泛测试,证明其在图像逆向中明显优于扩散模型的线性逆向方法。
Sep, 2023
对于高维感知数据, 扩散模型生成通过将数据从噪声逆向转换而得, 并已成为一种强大的生成建模技术。最近, 矫正流是一种将数据和噪声连接在一条直线上的生成模型表达形式。本研究通过偏向感知相关尺度来改进现有的噪声采样技术, 以训练矫正流模型。通过大规模研究, 我们证明了这种方法相对于已有的扩散公式在高分辨率文本到图像合成方面的优越性能。此外, 我们提出了一种基于Transformer的文本到图像生成架构, 该架构利用了两种模态的不同权重, 并实现了图像和文本记号之间的双向信息流, 从而改善了文本理解、排版和人体偏好评级。我们证明了这种架构遵循可预测的扩展趋势, 并通过各种度量标准和人体评估来证实验证损失越低, 文本到图像合成越好。我们的最大模型超过了现有的最先进模型, 我们将公开我们的实验数据、代码和模型权重。
Mar, 2024
本研究解决了在3D生成中将Score Distillation Sampling(SDS)适配到基于流的扩散模型的不足。提出的DreamCouple方法通过纠正流模型来寻找耦合噪声,并采用独特的耦合匹配(UCM)损失,成功改善了过平滑问题,提升了NeRF和3D高斯喷溅的性能,具有显著的影响力。
Aug, 2024
本研究解决了扩散模型在视觉生成中生成速度慢的问题,提出了一种新颖的方法,即不将直线性作为主要训练目标,而是关注于达到一阶近似的ODE路径。我们的实验表明,新的改进扩散方法在降低训练成本的同时,简化了训练过程,并在性能上优于传统的改进流方法。
Oct, 2024
本研究解决了扩散模型在生成速度上的不足,提出了整流扩散的新方法,认为直线不是整流的重要训练目标,而是应关注近似一阶的ODE路径。研究结果显示,该方法不仅简化了训练过程,还能在更低的训练成本下实现优越的性能。
Oct, 2024
本研究解决了生成模型在图像反演和编辑中的局限性,特别是在信号的非线性漂移和扩散带来的挑战。通过提出使用动态最优控制的修正流反演方法,并证明该方法等价于修正随机微分方程,我们在零-shot反演和编辑中实现了先进的性能,显示出相较于以往工作更高的用户偏好。
Oct, 2024
该研究解决了整流流扩散变换器在图像和视频生成中的反演精度不足问题,通过提出RF-Solver这一新方法,显著降低了整流流ODE求解过程中的误差。基于RF-Solver的RF-Edit进一步促进了图像和视频编辑,能够在进行编辑时保留源内容的结构信息,并且该方法兼容所有预训练的整流流模型,具有广泛应用潜力。
Nov, 2024