Apr, 2021

GODIVA:从自然语言描述中生成开放域视频

TL;DR本研究提出使用三維稀疏注意力機制的開放領域文本到視頻預訓練模型 GODIVA,可通過自回歸方法生成視頻。該模型在 Howto100M 上進行預訓練,可用於視頻生成任務的調整,並具有良好的零-shot能力。為了自動評估視頻生成質量,還提出了一個名為相對匹配(RM)的新指標。