VSTAR:用于长时间动态视频合成的生成时域护理
通过设计一个创新的动态场景管理器 (Dysen) 模块,该模块可以从输入文本中提取关键动作并将其以适当的时间顺序和动态场景图 (DSG) 表示转换,从而丰富了视频的场景细节,并与主干的T2V DM相结合来实现高质量的文本到视频生成。
Aug, 2023
使用参考引导的潜在扩散方法,VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
Sep, 2023
该研究论文提出了LaVie,一个整合的视频生成框架,通过利用预训练的文本到图像模型作为基础,以学习高质量的文本到视频生成模型。通过引入简单的时间自注意机制以及联合图像-视频微调的过程,LaVie能够生成视觉逼真且时间连贯的视频,并保留预训练T2I模型的创造性。经广泛实验证明,LaVie在性能上取得了最先进的表现,并可用于不同的长视频生成和个性化视频合成应用。
Sep, 2023
利用大规模视频数据集和扩散模型的进展,本研究通过引入多个文本条件,拓展了文本驱动视频生成模型的生成能力,解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。
Oct, 2023
最近,视频生成引起了广泛关注并取得了显着成果。针对视频的特点,多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型,通过直接利用预训练的基于扩散的文本到视频转换模型进行生成,而无需额外的微调。为了生成连续的视频片段,不同提示生成的视觉一致性是必要的,具有多样的变化,如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演,用于在不同提示的视频之间重新初始化噪声潜变量,以保持视觉一致性并防止重复运动或内容。此外,我们提出了结构导向采样,以在单个视频剪辑的帧之间保持全局外观,其中我们通过对前一帧进行迭代潜变量更新。此外,我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例:[此链接](https://this_URL)
Dec, 2023
通过StreamingT2V方法,可以实现高质量的长视频生成,该方法采用文本到视频扩散模型并引入条件注意模块,具有一致性和高运动量。
Mar, 2024
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel framework using spatio-temporal compositional diffusion for precise T2V generation by manipulating attention maps and enhancing training data, achieving impressive results.
Jun, 2024
本研究解决了文本到视频生成过程中高计算成本的问题,提出了一种基于潜在扩散模型的高效视频生成方法。通过引入视频变分自编码器(VidVAE)和分段合并策略,优化了视频数据的处理,并保持临时一致性。实验结果表明,xGen-VideoSyn-1在生成720p视频时具备竞争力的性能,推动了文本到视频合成技术的发展。
Aug, 2024