利用大型语言模型增强面向动态感知的文本到视频扩散
我们在本研究中提出了一种名为 DEVIL 的有效评估协议,它以动态维度评估文本到视频 (T2V) 生成模型,通过建立一个新的基准和动态分数,我们使用三个度量标准:动态范围、动态可控性和基于动态的质量来综合评估每个生成视频的动态性,并展示其潜力推进 T2V 生成模型。
Jul, 2024
本文介绍了一种新的基于指令训练的大语言模型框架 DirecT2V,该模型可以通过用户提供的单个抽象提示生成一帧帧的视频,并通过新颖的数值映射方法和双 softmax 过滤来维护临时一致性和防止物体折叠。实验结果证明了 DirecT2V 框架在从抽象用户提示中生成视觉上一致和连贯的视频方面的有效性,从而解决了零样本视频生成的挑战。
May, 2023
提出了一种基于扩散模型的新方法,从文本生成以动态三维物体为中心的高质量多视图视频,通过将问题分解为视点空间和时间组件,并引入对齐模块来保证生成的多视图视频的一致性和连贯性,同时解决了二维和多视图数据之间的领域差异。
Jun, 2024
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
ModelScopeT2V 是一个从文本到图像合成模型演变而来的文本到视频合成模型,它包含时空块以确保一致的帧生成和平滑的运动过渡。该模型可以适应不同的帧数量,在训练和推断过程中均适用于图像 - 文本和视频 - 文本数据集。拥有 17 亿参数的 ModelScopeT2V,整体由 VQGAN、文本编码器和去噪 UNet 组成,其中有 5 亿参数专门用于时序能力。该模型在三个评估指标上表现出优越的性能,优于现有的方法。代码和在线演示详见 https://modelscope.cn/models/damo/text-to-video-synthesis/summary。
Aug, 2023
Text-to-video generation using FlowZero, a framework that combines Large Language Models (LLMs) with image diffusion models, achieves improvement in zero-shot video synthesis by generating coherent videos with vivid motion.
Nov, 2023
本文介绍了一种新的 T2V 框架,通过引入音频信号来控制时间动态,从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法,以在视频综合的时间灵活性和一致性之间取得良好平衡,并通过实验验证了方法的有效性,并提出了实际应用。
May, 2023
通过 StreamingT2V 方法,可以实现高质量的长视频生成,该方法采用文本到视频扩散模型并引入条件注意模块,具有一致性和高运动量。
Mar, 2024
基于文本和初始帧,我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构,并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型,我们的方法在四个数据集上明显优于现有技术,证明了其在不同领域的有效性。
Jun, 2024