AniClipart:使用文本到视频先验的剪贴艺术动画
本文提出了一种方法,通过提供所需运动的文本提示来给单个主题的素描添加动作,并生成可轻松编辑的矢量表示的短动画。通过使用大型预训练的文本到视频扩散模型的运动先验进行评分蒸馏损失来引导笔画的放置,我们的方法不需要进行广泛的训练。通过两个组件对学习到的动作进行建模,第一个负责小局部变形,第二个负责全局仿射变换。令人惊讶的是,我们发现即使是在生成素描视频方面表现不佳的模型仍然可以作为动画抽象表达的有用支撑。
Nov, 2023
通过在冻结的文本到图像模型中插入一个新初始化的动态建模模块并对其进行视频剪辑训练,我们提出了一个实用的框架,一劳永逸地使大多数现有的个性化文本到图像模型都能够生成多样化和个性化的动态图像。
Jul, 2023
本研究针对动画视频插帧问题,提出 AnimeInterp 框架,包括 Segment-Guided Matching 和 Recurrent Flow Refinement 模块,能够有效解决动画视频的颜色匹配和非线性动作问题,该方法在大规模动画三重奏数据集 ATD-12K 上表现优于现有最先进的插帧方法,并具有较优的视觉质量和鲁棒性。
Apr, 2021
我们引入了动画贴纸,一种根据文本提示和静态贴纸图像生成动画的扩散模型。我们的模型建立在最先进的 Emu 文本图像模型基础上,并通过添加时间层来模拟动作。为了弥合领域差异,即视觉和动作风格的差异,一个在生成自然视频方面表现良好的模型在应用于贴纸时无法生成生动的视频。为了弥合这一差距,我们采用了两阶段微调流程:首先使用弱域内数据,然后采用多教师集成策略,在人机协同策略下提取多个教师的最佳品质,进而生成较小的学生模型。我们展示了这种策略在保持静态图像风格的同时,针对动作质量的改进。通过推理优化,我们的模型能够在一秒钟内生成高质量、有趣且相关的八帧视频。
Feb, 2024
提出了一种使用自然语言驱动的零样本文本框架 --AvatarCLIP,用于三维头像的生成和动画制作,并利用 CLIP 来监督神经人类的生成,实现了超强的零样本能力。
May, 2022
我们提出了一种创新的方法 Text-Animator,用于视觉文本视频生成,通过精确描述生成视频中视觉文本的结构,并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性,实验证明了我们方法在生成视觉文本准确性上的优越性。
Jun, 2024
通过解耦视频为特定外观与相应动作的图像动画,我们提出了 AnimateZero 来揭示预训练的文本到视频扩散模型 AnimateDiff,并为其提供更精确的外观和动作控制能力。Anima teZero 无需进一步训练即可成功控制生成进程,对于给定图像,还可以实现多种新应用,包括交互式视频生成和真实图像动画。详细实验表明,该方法在 T2V 和相关应用中具有有效性。
Dec, 2023