BriefGPT.xyz
Sep, 2023
基于LLM的视频扩散模型
LLM-grounded Video Diffusion Models
HTML
PDF
Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, Boyi Li
TL;DR
在视频生成方面,本研究提出了一种基于文本的扩散模型,通过使用大型语言模型(LLM)生成的动态场景布局来引导视频生成过程,旨在解决现有模型在处理复杂时空提示时遇到的限制和错误运动的问题。实验证明该方法在生成具有所需特征和运动模式的视频方面显著优于基准模型和一些强基线方法。
Abstract
text-conditioned diffusion models
have emerged as a promising tool for neural
video generation
. However, current models still struggle with intricate spatiotemporal prompts and often generate restricted or incorr
→