MobileVidFactory:基于文本的自动扩散社交媒体视频生成移动设备
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
VideoFactory是一种通过使用swapped cross-attention mechanism从而加强空间和时间相互感知的方法,并借助大规模的HD-VG-130M视频数据集,实现生成无水印、高清晰度、通用领域的视频。研究结果表明,该方法在单帧质量、时间相关性和文本视频对齐方面具有明显优势。
May, 2023
本篇论文介绍了MovieFactory框架,用于根据自然语言需求生成影视作品,其中自动化电影生成模型、自然语言处理方法、文本到图像模型、音频检索等方法都有所涉及。
Jun, 2023
使用参考引导的潜在扩散方法,VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
Sep, 2023
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
ART·V 是一个高效的自回归视频生成框架,使用扩散模型逐帧生成视频,并通过简化连续帧之间的运动来避免建模复杂的远程运动,同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示,ART·V 可以生成任意长度的视频,具有高度的多功能性和灵活性。通过引入掩蔽扩散模型和使用初始帧作为条件,ART·V 进一步提升了生成一致性和生成的视觉质量,能够在短时间内生成带有自然运动、丰富细节和高美感的视频,并支持多个文本提示组合成长视频的应用。
Nov, 2023
提出了一种统一的多模态视频生成系统,能够处理基于文本和图像模态的多个视频生成任务,其中高自由度视频生成采用多条件交叉注意力对齐输入图像或文本的语义,低自由度视频生成引入偏置高斯噪声以更好地保留输入条件的内容,该方法在MSR-VTT公共学术基准中取得了最低的Fréchet视频距离(FVD),在人类评估中超过了当前的开源方法,并与当前的闭源方法Gen2持平。
Jan, 2024
Sora带来了文本到视频扩散模型的新时代,它在视频生成和潜在应用方面取得了重大进展;本文介绍了VidProM,这是第一个由真实用户提供的包含167万个文本到视频提示的大规模数据集,并探讨了与之相关的研究领域和新的研究方向。
Mar, 2024
通过使用网格扩散模型生成视频,我们可以通过固定数量的 GPU 内存生成高质量的视频,减小视频维度从而可以应用各种基于图像的方法,如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法,证明了我们的模型在真实世界中进行视频生成的适用性。
Mar, 2024
Vidu是一种高性能的文本到视频生成器,采用U-ViT作为骨干模型,可以单次生成长达16秒的1080p视频。Vidu具有较强的连贯性和动态性,能够生成逼真和富有想象力的视频,同时,在某些专业摄影技术方面具备与Sora相媲美的水平。最后,我们还进行了其他可控制的视频生成初步实验,包括Canny-to-video生成、视频预测和主题驱动生成,结果显示有希望。
May, 2024