Vid2Game: 从现实世界视频中提取可控角色
通过视频重建一个可动画的模型,运用深度学习网络训练产生了一种体积式 3D 人体表达,实现了新颖的姿态 / 视角的综合和不需要预先装配模型的图像合成。研究证明了该模型的有效性并展示了不同人的视频实验结果以及模型的运用:运动重定向和子弹时间效果。
Dec, 2020
通过扩展训练数据,我们提出了一种针对角色动画的新型框架,使用扩散模型来保持细节特征的一致性,通过空间注意力合并细节特征,引入高效的姿势指导器来控制角色运动,并采用有效的时间建模方法来实现视频帧之间的流畅过渡,相比其他图像到视频方法,在角色动画领域取得了卓越的结果。此外,我们在时尚视频和人类舞蹈合成基准上评估了我们的方法,取得了最先进的结果。
Nov, 2023
本研究提出一种新的双阶段训练方法,可利用易获得的数据集和预训练的 text-to-image(T2I)模型,生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频,同时保持了预训练 T2I 模型的编辑和概念构成能力。
Apr, 2023
本研究提出了一种基于深度姿态估计和深度强化学习的方法,使得物理模拟的角色能够从公开视频片段中学习技能,并提供了一个快速设计角色控制器的方法,结果是鲁棒的,并能够适应新的环境并预测人类动作.
Oct, 2018
本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
May, 2023
从单张图片生成视频序列的 PoseAnimate 是一种新颖的零样本人物动画框架,通过将多样化的姿势信号整合到条件嵌入中以保持人物独立内容并维持动作的精确对齐,增强了时序一致性、保留了人物身份特征和复杂背景细节以及通过解耦角色和背景改善动画精度。实验结果表明,该方法在人物一致性和细节保真度方面优于现有的基于训练的方法,并且在所生成动画中始终保持较高水平的时序一致性。
Apr, 2024
通过观察人类运动的视觉序列,我们可以轻松猜测人在过去和未来的 3D 运动。我们提出了一个可以学习人类 3D 动力学表示的框架,通过简单而有效的图像特征时间编码。在测试过程中,学习到的时空表示能够预测具有平稳性的 3D 网格。我们的模型可以从单个图像中恢复当前的 3D 网格以及它未来和过去的 3D 运动,同时也可以通过半监督学习从带有 2D 姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练,通过已有的 2D 姿态检测器得到伪基础真值 2D 姿态,证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。
Dec, 2018