利用大型语言模型增强面向动态感知的文本到视频扩散

Aug, 2023

利用大型语言模型增强面向动态感知的文本到视频扩散

Empowering Dynamics-aware Text-to-Video Diffusion with Large Language Models

Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Tat-Seng Chua

TL;DR通过设计一个创新的动态场景管理器 (Dysen) 模块，该模块可以从输入文本中提取关键动作并将其以适当的时间顺序和动态场景图 (DSG) 表示转换，从而丰富了视频的场景细节，并与主干的T2V DM相结合来实现高质量的文本到视频生成。

Abstract

Text-to-video (T2V) synthesis has gained increasing attention in the community, in which the recently emerged diffusion models (DMs) have promisingly shown stronger performance than the past approaches. While existing state-of-the-art DMs are competent to achieve high-resolution

发现论文，激发创造

基于LLM的视频扩散模型

在视频生成方面，本研究提出了一种基于文本的扩散模型，通过使用大型语言模型（LLM）生成的动态场景布局来引导视频生成过程，旨在解决现有模型在处理复杂时空提示时遇到的限制和错误运动的问题。实验证明该方法在生成具有所需特征和运动模式的视频方面显著优于基准模型和一些强基线方法。

Sep, 2023

稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集

我们提出了稳定的视频扩散-一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。

Nov, 2023

FlowZero：基于LLM驱动的动态场景语法的零样本文本到视频合成

Text-to-video generation using FlowZero, a framework that combines Large Language Models (LLMs) with image diffusion models, achieves improvement in zero-shot video synthesis by generating coherent videos with vivid motion.

Nov, 2023

FineMoGen: 细粒度时空运动生成与编辑

FineMoGen是一个基于扩散模型的运动生成和编辑框架，可以合成细粒度的运动，并以用户指令为依据进行空间-时间组合。

Dec, 2023

Motion-I2V: 显式运动建模的一致且可控的图像到视频生成

Motion-I2V 是一个用于生成一致且可控的图像到视频的新型框架，通过显式的运动建模将图像到视频分解为两个阶段。

Jan, 2024

运动乐章：将静态图像转化为动态视频

通过将语义和动作线索整合到扩散模型中，我们引入了一种用于视频生成的新方法，它显著提升了视频质量、动作精度和语义连贯性。

Mar, 2024

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过StreamingT2V方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

搜索先验使文本到视频的合成更好

本文使用搜索为基础的生成流程，将传统的文本到视频生成过程重构，并利用先前的视频作为动作先验数据库，以此增强生成视频动作的真实感。

Jun, 2024

VideoTetris：走向组合式文本到视频生成

Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel framework using spatio-temporal compositional diffusion for precise T2V generation by manipulating attention maps and enhancing training data, achieving impressive results.

Jun, 2024

基于大规模语言模型的分层3D视频生成

本研究解决了文本到视频生成中对个别概念（如角色的运动和外观）控制不精准的问题。我们提出了一种新颖的方法，通过将每个概念以3D表示分开生成，并结合大语言模型和2D扩散模型的先验信息进行合成。实验表明，该方法能够从文本生成高保真度的视频，并对每个概念实现灵活控制。

Aug, 2024