May, 2023

大型语言模型是零样本文本到视频生成的帧级导演

TL;DR本文介绍了一种新的基于指令训练的大语言模型框架 DirecT2V,该模型可以通过用户提供的单个抽象提示生成一帧帧的视频,并通过新颖的数值映射方法和双 softmax 过滤来维护临时一致性和防止物体折叠。实验结果证明了 DirecT2V 框架在从抽象用户提示中生成视觉上一致和连贯的视频方面的有效性,从而解决了零样本视频生成的挑战。