Jan, 2024

UniVG: 走向统一模态视频生成

TL;DR提出了一种统一的多模态视频生成系统,能够处理基于文本和图像模态的多个视频生成任务,其中高自由度视频生成采用多条件交叉注意力对齐输入图像或文本的语义,低自由度视频生成引入偏置高斯噪声以更好地保留输入条件的内容,该方法在 MSR-VTT 公共学术基准中取得了最低的 Fréchet 视频距离(FVD),在人类评估中超过了当前的开源方法,并与当前的闭源方法 Gen2 持平。