Jan, 2024

记录生活:实现你的 Vlog 梦想

TL;DR我们提出了 Vlogger,一个通用的人工智能系统,用于生成用户描述的分钟级视频博客。通过智能地利用大型语言模型作为导演,我们将视频生成任务分解为四个关键阶段,通过顶级规划和底层拍摄的合作,以模拟人类生成 vlogs。此外,我们引入了一种新颖的视频传播模型 ShowMaker,用于生成每个拍摄场景的视频片段,并通过引入文本和视觉提示来提高片段的时空一致性。实验证明,我们的方法在零样本 T2V 生成和预测任务上达到了最先进的性能,并且 Vlogger 能够从开放世界描述中生成超过 5 分钟的 vlogs,且在脚本和演员方面保持了视频的连贯性。