Sep, 2023

基于 LLM 的视频扩散模型

TL;DR在视频生成方面,本研究提出了一种基于文本的扩散模型,通过使用大型语言模型(LLM)生成的动态场景布局来引导视频生成过程,旨在解决现有模型在处理复杂时空提示时遇到的限制和错误运动的问题。实验证明该方法在生成具有所需特征和运动模式的视频方面显著优于基准模型和一些强基线方法。