流媒体传播：使用传播模型进行在线视频编辑

May, 2024

流媒体传播：使用传播模型进行在线视频编辑

Streaming Video Diffusion: Online Video Editing with Diffusion Models

Feng Chen, Zhen Yang, Bohan Zhuang, Qi Wu

TL;DR我们提出了一种名为在线视频编辑的新任务，旨在在保持时间一致性的同时编辑流式帧。我们提出了 Streaming Video Diffusion（SVDiff）来解决此问题，它将紧凑的空间感知时间回归与现成的稳定扩散相结合，并采用分段级方案在大规模长视频上进行训练。通过这种简单而有效的设置，我们可以获得一个能够执行各种视频并具有时序连续性的单一模型。我们的实验表明，我们的模型能够以 512x512 的分辨率实现 15.2 FPS 的实时推理速度，对于长时间、高质量的视频编辑表现出色。

Abstract

We present a novel task called online video editing, which is designed to edit \textbf{streaming} frames while maintaining temporal consistency. Unlike existing offline video editing assuming all frames are pre-e

online video editing streaming frames temporal consistency streaming video diffusion real-time inference speed

发现论文，激发创造

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

从单一视频流在线连续学习视频扩散模型

本研究介绍了通过在连续视频流中训练扩散模型的可行性，并通过引入两个新的持续视频生成建模基准数据集 —— 终身弹跳球和 Windows 95 迷宫屏幕保护程序，证明了扩散模型可以通过经验重放在线有效地训练，其性能与使用相同梯度步数训练的独立同分布样本的模型相当。

Jun, 2024

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

SF-V：单向视频生成模型

通过对预训练的视频扩散模型进行对抗训练，我们提出了一种新颖的方法，通过单步合成高质量视频来获得单步视频生成模型，捕捉视频数据中的时间和空间依赖关系，从而大大减少计算成本，为实时视频合成和编辑铺平了道路。

Jun, 2024

ZeroSmooth：无需训练的扩散器自适应高帧率视频生成

我们提出了一种对生成式视频扩散模型的训练无关的视频插值方法，通过将视频模型转换为自级联视频扩散模型并结合设计的隐藏状态校正模块，保持关键帧与插值帧之间的时间一致性。在多个受欢迎的视频模型上进行了广泛的评估，证明了该方法的有效性，特别是我们的训练无关方法甚至可以与由大量计算资源和大规模数据集支持的训练插值模型相媲美。

Jun, 2024

EffiVED: 基于文本指令扩散模型的高效视频编辑

EffiVED 是一种基于扩散的高效模型，支持指导视频编辑；采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练；实验证明 EffiVED 生成高质量编辑视频且执行速度快，并且数据收集方法显著改善编辑性能，有望解决视频编辑数据的稀缺问题。

Mar, 2024

Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑

通过利用预训练的 T2I 扩散模型处理空间和时空切片，我们提出了一种基于文本的视频编辑方法 Slicedit，能够生成保留原始视频结构和动作并满足目标文本的视频，相对于现有竞争方法，我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。

May, 2024

长视频的灵活扩散建模

本研究提出了一种基于去噪扩散概率模型的视频建模框架，可在各种真实环境下生成长时间视频，并介绍了一种适用于此目的的架构，可有效比较和优化采样顺序，并对以前采样的帧使用选择性稀疏和长程调节。实验结果表明，在多个数据集上相较于现有工作获得了更好的视频建模，并生成了长达 25 分钟的时间连贯视频。研究还发布了一个基于 CARLA 自动驾驶模拟器生成视频构建数据集和具有语义意义的度量。

May, 2022