Jan, 2024

Lumiere: 一个用于视频生成的时空扩散模型

TL;DRLumiere是一种文本到视频扩散模型,用于综合描绘逼真、多样和连贯的运动,在视频合成中是一个关键的挑战。通过引入空时U-Net架构,我们一次性地生成整个视频的时间持续性,与现有的合成关键帧和时间超分辨率的视频模型相比,我们的设计更容易实现全局时间一致性。我们展示了最先进的文本到视频生成结果,并表明我们的设计能够轻松支持广泛的内容创作任务和视频编辑应用,包括图像到视频、视频修复和风格生成。