Dec, 2023

VideoPoet: 用于零样本视频生成的大型语言模型

TL;DRVideoPoet 是一种语言模型,能够从多种信号条件下合成配有匹配音频的高质量视频。该模型采用解码器式 Transformer 架构处理多模态输入,包括图像、视频、文本和音频,通过两个阶段的预训练和任务特定的适应来训练。我们通过实证结果展示了该模型在零样本视频生成方面具有最先进的能力,特别是其生成高保真度的动作。