CVPRMar, 2022

通过多模态调节进行视频综合的展示和说明

TL;DR使用多模态生成框架,结合文本和图像训练双向变压器等多重输入来预测离散视频表示,同时提供改进的样本视频代币和文本增广,以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态,可以通过文本提示生成对应视频,并在四个数据集上取得了最新的生成结果。