流动扩散:实时交互式生成的管道级解决方案
通过稳定快速推理技术和重构模型为新提出的多提示流批处理架构,我们提出了 StreamMultiDiffusion,这是第一个基于区域的实时文本到图像生成框架,在单个 RTX 2080 Ti GPU 上实现了 1.57 FPS 的区域文本到图像合成生成速度,比现有解决方案快 10 倍。
Mar, 2024
透过使用 Rectified Flow 方法,本论文将 Stable Diffusion (SD) 转变为一步模型,创造了首个具有 SD 水平图像质量的逐步扩散型文本到图像生成器 InstaFlow,并大幅超越先前的最先进技术 progressive distillation。
Sep, 2023
该论文提出了一种双流扩散网络(DSDN),以提高生成视频中内容变化的一致性,并通过引入交叉变换器交互模块实现内容和动作领域之间的良好对齐,从而减少了视频中的闪烁现象。定性和定量实验证明,该方法能够生成流畅连续且闪烁较少的精彩视频。
Aug, 2023
本文介绍了一种基于扩散模型的新型通用去噪扩散模型,采用线性插值进行扩散,中间的噪声图像从原始的清晰图像和相应的真实噪声图像进行插值,使得该扩散模型可以处理添加噪声的级别,并且提出了两种采样算法,实验证明该模型在真实去噪基准测试中表现良好。
May, 2023
本文提出了一种自回归、端到端优化的视频扩散模型,受到神经视频压缩技术的启发,可用于生成高质量的视频,并提出了可扩展的连续排名概率得分(CRPS)方法,以评估视频的概率预测能力,该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。
Mar, 2022
该研究通过引入高效网络架构和步骤蒸馏等技术,提出了一种通用的方法,首次实现在移动设备上以不到 2 秒的速度运行文本到图像扩散模型。该模型可以使用户自己创作图像,而不需要高端 GPU 或云端推理,这将在内容创作方面具有重要作用。
Jun, 2023
本文提出了 RenderDiffusion,这是第一个用于 3D 生成和推断的扩散模型,使用仅有的单眼 2D 监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion,展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。
Nov, 2022
基于层次扩散刷子的实时图像编辑技术结合了图像编辑概念,通过精细的区域导向修改中间去噪步骤,保持输入图像的完整性和上下文,并在高端消费级 GPU 上在 140 毫秒内呈现 512x512 图像的单个编辑,从而实现实时反馈和候选编辑的快速探索。通过用户研究验证了方法和编辑系统的可行性和有效性,对比了现有技术如 InstructPix2Pix 和 Stable Diffusion Inpainting 在图像优化方面的表现。该方法在对象属性调整、错误修正和顺序提示式对象放置和操作等各种任务上表现出有效性,展示了它提升创作工作流程的多功能性和潜力。
May, 2024
我们提出了一种名为在线视频编辑的新任务,旨在在保持时间一致性的同时编辑流式帧。我们提出了 Streaming Video Diffusion(SVDiff)来解决此问题,它将紧凑的空间感知时间回归与现成的稳定扩散相结合,并采用分段级方案在大规模长视频上进行训练。通过这种简单而有效的设置,我们可以获得一个能够执行各种视频并具有时序连续性的单一模型。我们的实验表明,我们的模型能够以 512x512 的分辨率实现 15.2 FPS 的实时推理速度,对于长时间、高质量的视频编辑表现出色。
May, 2024