I4VGen:文本到视频生成的图像媒介
提出了 I2VGen-XL 的级联方法,通过将两个因素解耦并利用静态图像作为关键指导,能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。
Nov, 2023
使用参考引导的潜在扩散方法,VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
Sep, 2023
4DGen 是一种新颖的综合框架,将 4D 内容创建任务拆分为多个阶段,利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分,使用动态 3D Gaussians 构建 4D 表示,在训练期间利用渲染进行高分辨率监督,从而实现了高质量的 4D 生成,并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验,相比现有基线方法,在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果,最重要的是,我们的方法支持基于实际场景的生成,为用户提供了增强控制,这是以前方法难以实现的特点。
Dec, 2023
通过训练 Text-to-Image-to-Video Generative Adversarial Network 模型,我们实现了对于给定的文本描述,生成相对应的视频,进而对深度学习、视频生成等相关领域进行研究探索。
Sep, 2020
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
基于级联的视频扩散模型,Imagen Video 是一种文本有条件的视频生成系统,它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型,具有高度的可控性和世界知识,包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。
Oct, 2022
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023
Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.
Mar, 2024
该研究介绍了一种基于 Gen4Gen 的半自动数据集创建流程,并提出了一种综合指标以更好地量化多概念个性化文本到图像扩散方法的性能。研究通过改善数据质量和提示策略,将实现多概念个性化图像生成质量的显著提高,而无需对模型架构或训练算法进行任何修改。
Feb, 2024