Nov, 2021

NÜWA: 神经视觉世界创造的视觉综合预训练

TL;DR本文提出了一种名为N'UWA的统一的多模态预训练模型,可以生成新的或调节现有的视觉数据(即图像和视频)以进行各种视觉合成任务。N'UWA在8个下游任务上的表现超过了强基准,并且在文本到图像生成,文本到视频生成,视频预测等任务上实现了最先进的结果。此外,它还表现出惊人的零成本能力,用于文本引导的图像和视频操作任务。