May, 2024

Vidu: 一种高一致性、动态且技术娴熟的文本到视频生成器,采用扩散模型

TL;DRVidu 是一种高性能的文本到视频生成器,采用 U-ViT 作为骨干模型,可以单次生成长达 16 秒的 1080p 视频。Vidu 具有较强的连贯性和动态性,能够生成逼真和富有想象力的视频,同时,在某些专业摄影技术方面具备与 Sora 相媲美的水平。最后,我们还进行了其他可控制的视频生成初步实验,包括 Canny-to-video 生成、视频预测和主题驱动生成,结果显示有希望。