Nov, 2023

ART・V: 基于扩散模型的自回归文本到视频生成

TL;DRART・V 是一个高效的自回归视频生成框架,使用扩散模型逐帧生成视频,并通过简化连续帧之间的运动来避免建模复杂的远程运动,同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示,ART・V 可以生成任意长度的视频,具有高度的多功能性和灵活性。通过引入掩蔽扩散模型和使用初始帧作为条件,ART・V 进一步提升了生成一致性和生成的视觉质量,能够在短时间内生成带有自然运动、丰富细节和高美感的视频,并支持多个文本提示组合成长视频的应用。