ModelScope 文本到视频技术报告

Aug, 2023

ModelScope Text-to-Video Technical Report

Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang...

TL;DRModelScopeT2V 是一个从文本到图像合成模型演变而来的文本到视频合成模型，它包含时空块以确保一致的帧生成和平滑的运动过渡。该模型可以适应不同的帧数量，在训练和推断过程中均适用于图像 - 文本和视频 - 文本数据集。拥有 17 亿参数的 ModelScopeT2V，整体由 VQGAN、文本编码器和去噪 UNet 组成，其中有 5 亿参数专门用于时序能力。该模型在三个评估指标上表现出优越的性能，优于现有的方法。代码和在线演示详见 https://modelscope.cn/models/damo/text-to-video-synthesis/summary。

Abstract

This paper introduces modelscopet2v, a text-to-video synthesis model that evolves from a text-to-image synthesis model (i.e., Stable Diffusion).

modelscopet2v text-to-video synthesis spatio-temporal blocks frame generation evaluation metrics

发现论文，激发创造

VideoCrafter1：高质量视频生成的开放扩散模型

视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频，而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。

Oct, 2023

文本到视频生成的层次化时空解耦

提出了 HiGen，一种基于扩散模型的方法，通过从结构层面和内容层面解耦视频的空间和时间因素，实现了在生成视频时具备语义准确性和运动稳定性的方法。

Dec, 2023

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为 Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024

利用大型语言模型增强面向动态感知的文本到视频扩散

通过设计一个创新的动态场景管理器 (Dysen) 模块，该模块可以从输入文本中提取关键动作并将其以适当的时间顺序和动态场景图 (DSG) 表示转换，从而丰富了视频的场景细节，并与主干的 T2V DM 相结合来实现高质量的文本到视频生成。

Aug, 2023

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

VideoTetris：走向组合式文本到视频生成

Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel framework using spatio-temporal compositional diffusion for precise T2V generation by manipulating attention maps and enhancing training data, achieving impressive results.

Jun, 2024

视频电梯：用多功能的文本到图像扩散模型提升视频生成质量

Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.

Mar, 2024

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

I2VGen-XL: 通过级联扩散模型实现高质量图像到视频的合成

提出了 I2VGen-XL 的级联方法，通过将两个因素解耦并利用静态图像作为关键指导，能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。

Nov, 2023