流动扩散：实时交互式生成的管道级解决方案

Dec, 2023

流动扩散：实时交互式生成的管道级解决方案

StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

Akio Kodaira, Chenfeng Xu, Toshiki Hazama, Takanori Yoshimoto, Kohei Ohno...

TL;DR我们介绍了一种名为 StreamDiffusion 的实时扩散流水线，用于交互式图像生成。

Abstract

We introduce streamdiffusion, a real-time diffusion pipeline designed for interactive image generation. Existing diffusion models are adep

streamdiffusion real-time diffusion pipeline image generation batching denoising process rcfg algorithm

发现论文，激发创造

流式多扩散：基于区域的语义控制下的实时交互生成

通过稳定快速推理技术和重构模型为新提出的多提示流批处理架构，我们提出了 StreamMultiDiffusion，这是第一个基于区域的实时文本到图像生成框架，在单个 RTX 2080 Ti GPU 上实现了 1.57 FPS 的区域文本到图像合成生成速度，比现有解决方案快 10 倍。

Mar, 2024

时钟扩散：基于模型步骤提炼的高效生成

该研究旨在提高文本到图像扩散模型的效率，通过周期性地重复利用计算以近似低分辨率特征图，在保持感知分数可比拟或改善的同时，大大减少了计算复杂度。

Dec, 2023

InstaFlow: 高质量的扩散式文本到图像生成只需一步

透过使用 Rectified Flow 方法，本论文将 Stable Diffusion (SD) 转变为一步模型，创造了首个具有 SD 水平图像质量的逐步扩散型文本到图像生成器 InstaFlow，并大幅超越先前的最先进技术 progressive distillation。

Sep, 2023

文本到视频生成的双流扩散网络

该论文提出了一种双流扩散网络（DSDN），以提高生成视频中内容变化的一致性，并通过引入交叉变换器交互模块实现内容和动作领域之间的良好对齐，从而减少了视频中的闪烁现象。定性和定量实验证明，该方法能够生成流畅连续且闪烁较少的精彩视频。

Aug, 2023

扩散模型实现实际噪声抑制

本文介绍了一种基于扩散模型的新型通用去噪扩散模型，采用线性插值进行扩散，中间的噪声图像从原始的清晰图像和相应的真实噪声图像进行插值，使得该扩散模型可以处理添加噪声的级别，并且提出了两种采样算法，实验证明该模型在真实去噪基准测试中表现良好。

May, 2023

视频生成的扩散概率建模

本文提出了一种自回归、端到端优化的视频扩散模型，受到神经视频压缩技术的启发，可用于生成高质量的视频，并提出了可扩展的连续排名概率得分（CRPS）方法，以评估视频的概率预测能力，该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。

Mar, 2022

SnapFusion：移动设备上的文本到图像扩散模型，两秒钟内完成

该研究通过引入高效网络架构和步骤蒸馏等技术，提出了一种通用的方法，首次实现在移动设备上以不到 2 秒的速度运行文本到图像扩散模型。该模型可以使用户自己创作图像，而不需要高端 GPU 或云端推理，这将在内容创作方面具有重要作用。

Jun, 2023

RenderDiffusion：用于 3D 重建、修补与生成的图像扩散

本文提出了 RenderDiffusion，这是第一个用于 3D 生成和推断的扩散模型，使用仅有的单眼 2D 监督进行训练，并采用新颖的图像去噪架构进行中间的三维表示，以提供强烈归纳结构，同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion，展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外，我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。

Nov, 2022

使用分层扩散笔简化图像编辑

基于层次扩散刷子的实时图像编辑技术结合了图像编辑概念，通过精细的区域导向修改中间去噪步骤，保持输入图像的完整性和上下文，并在高端消费级 GPU 上在 140 毫秒内呈现 512x512 图像的单个编辑，从而实现实时反馈和候选编辑的快速探索。通过用户研究验证了方法和编辑系统的可行性和有效性，对比了现有技术如 InstructPix2Pix 和 Stable Diffusion Inpainting 在图像优化方面的表现。该方法在对象属性调整、错误修正和顺序提示式对象放置和操作等各种任务上表现出有效性，展示了它提升创作工作流程的多功能性和潜力。

May, 2024

流媒体传播：使用传播模型进行在线视频编辑

我们提出了一种名为在线视频编辑的新任务，旨在在保持时间一致性的同时编辑流式帧。我们提出了 Streaming Video Diffusion（SVDiff）来解决此问题，它将紧凑的空间感知时间回归与现成的稳定扩散相结合，并采用分段级方案在大规模长视频上进行训练。通过这种简单而有效的设置，我们可以获得一个能够执行各种视频并具有时序连续性的单一模型。我们的实验表明，我们的模型能够以 512x512 的分辨率实现 15.2 FPS 的实时推理速度，对于长时间、高质量的视频编辑表现出色。

May, 2024