Aug, 2024

基于大规模语言模型的分层3D视频生成

TL;DR本研究解决了文本到视频生成中对个别概念(如角色的运动和外观)控制不精准的问题。我们提出了一种新颖的方法,通过将每个概念以3D表示分开生成,并结合大语言模型和2D扩散模型的先验信息进行合成。实验表明,该方法能够从文本生成高保真度的视频,并对每个概念实现灵活控制。