Aug, 2023

ModelScope 文本到视频技术报告

TL;DRModelScopeT2V 是一个从文本到图像合成模型演变而来的文本到视频合成模型,它包含时空块以确保一致的帧生成和平滑的运动过渡。该模型可以适应不同的帧数量,在训练和推断过程中均适用于图像 - 文本和视频 - 文本数据集。拥有 17 亿参数的 ModelScopeT2V,整体由 VQGAN、文本编码器和去噪 UNet 组成,其中有 5 亿参数专门用于时序能力。该模型在三个评估指标上表现出优越的性能,优于现有的方法。代码和在线演示详见 https://modelscope.cn/models/damo/text-to-video-synthesis/summary。