LAMP: 基于少样本的视频生成中学习动作模式
通过低秩适应的时空注意力层,该文献介绍了一种用于一次性运动定制的自定义视频模型,可以从单个参考视频中学习运动信息,以适应新的主题和场景,并可轻松扩展到多个下游任务。
Feb, 2024
基于文本和初始帧,我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构,并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型,我们的方法在四个数据集上明显优于现有技术,证明了其在不同领域的有效性。
Jun, 2024
本研究提出了一种基于文本到图像扩散模型的新的两阶段潜在扩散文本到视频生成架构,该架构对关键帧合成和插值帧生成进行建模,并通过比较不同的时间条件方法和视频解码方案进行实验评估,最终在视频生成质量方面取得了较好的结果。
Nov, 2023
在视频生成方面,本研究提出了一种基于文本的扩散模型,通过使用大型语言模型(LLM)生成的动态场景布局来引导视频生成过程,旨在解决现有模型在处理复杂时空提示时遇到的限制和错误运动的问题。实验证明该方法在生成具有所需特征和运动模式的视频方面显著优于基准模型和一些强基线方法。
Sep, 2023
提出了一种基于 Motion Generation 的视频生成方法,通过 Latent Motion Generation 和 Video Reconstruction 实现视频生成的可控性,采用了 LaMD 框架,包括 Motion-decomposed Video Autoencoder 和 Diffusion-based Motion Generator 两部分,实现了高质量、宽泛的运动生成,并在多个基准数据集上创造了新的最先进的性能。
Apr, 2023
我们提出了 Pix2Gif,一种用于图像到 GIF(视频)生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题,我们以不同的方式解决了这个问题。为了确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,以在两种提示的条件下空间转换源图像的特征。此外,我们引入了一个感知损失,确保变换后的特征图与目标图像保持相同的空间,以确保内容的一致性和连贯性。在模型训练准备阶段,我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据,该数据集提供了关于主题的时序变化的丰富信息。在预训练之后,我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示,还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。
Mar, 2024
该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023
通过 LivePhoto 系统,使用者可以通过文本描述来为感兴趣的图像添加动画效果,系统通过改进的生成器和设计的训练流程,实现了文本到视频的解码,进而实现了对视频的自定义。
Dec, 2023
本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用,在形状、纹理和颜色上强制执行分层的跨帧约束,实现低成本下的全局样式和局部纹理的时空一致性。
Jun, 2023