Vid2Game: 从现实世界视频中提取可控角色

Apr, 2019

Vid2Game: 从现实世界视频中提取可控角色

Vid2Game: Controllable Characters Extracted from Real-World Videos

Oran Gafni, Lior Wolf, Yaniv Taigman

TL;DR该研究介绍了一种使用可控模型和神经网络生成具有自定义运动控制、背景及外观的人物影像序列的方法，展示了该方法在多个舞蹈家和运动员视频中的高质量表现。

Abstract

We are given a video of a person performing a certain activity, from which we extract a controllable model. The model generates novel image sequences of that person, according to arbitrary user-defined control si

controllable model image sequences networks pose background

发现论文，激发创造

Vid2Actor: 野外视频中基于自由视点的动态人物合成

通过视频重建一个可动画的模型，运用深度学习网络训练产生了一种体积式 3D 人体表达，实现了新颖的姿态 / 视角的综合和不需要预先装配模型的图像合成。研究证明了该模型的有效性并展示了不同人的视频实验结果以及模型的运用：运动重定向和子弹时间效果。

Dec, 2020

人类演员视频的神经渲染及再现

该研究提出了一种基于视频的真实人物动画生成方法，利用中等质量的可控 3D 模板模型和神经网络技术，成功实现了人物形象的逼真渲染和编辑。

Sep, 2018

网络视频中的动作转移：跳舞生成

本文提出了一种利用计算方法在不同人之间传递身体动作的技术，基于生成网络，可以通过单个网络视频训练个人模型并生成具有照片级真实感的虚拟影像。

Mar, 2019

实现动画的任何人：一致且可控的角色动画图像到视频的合成

通过扩展训练数据，我们提出了一种针对角色动画的新型框架，使用扩散模型来保持细节特征的一致性，通过空间注意力合并细节特征，引入高效的姿势指导器来控制角色运动，并采用有效的时间建模方法来实现视频帧之间的流畅过渡，相比其他图像到视频方法，在角色动画领域取得了卓越的结果。此外，我们在时尚视频和人类舞蹈合成基准上评估了我们的方法，取得了最先进的结果。

Nov, 2023

跟随你的姿势：使用无姿态视频进行姿势引导的文本到视频生成

本研究提出一种新的双阶段训练方法，可利用易获得的数据集和预训练的 text-to-image（T2I）模型，生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频，同时保持了预训练 T2I 模型的编辑和概念构成能力。

Apr, 2023

从视频中使用强化学习进行物理技能训练

本研究提出了一种基于深度姿态估计和深度强化学习的方法，使得物理模拟的角色能够从公开视频片段中学习技能，并提供了一个快速设计角色控制器的方法，结果是鲁棒的，并能够适应新的环境并预测人类动作.

Oct, 2018

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为 Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

PoseAnimate: 零样本高保真度姿势可控角色动画

从单张图片生成视频序列的 PoseAnimate 是一种新颖的零样本人物动画框架，通过将多样化的姿势信号整合到条件嵌入中以保持人物独立内容并维持动作的精确对齐，增强了时序一致性、保留了人物身份特征和复杂背景细节以及通过解耦角色和背景改善动画精度。实验结果表明，该方法在人物一致性和细节保真度方面优于现有的基于训练的方法，并且在所生成动画中始终保持较高水平的时序一致性。

Apr, 2024

基于视频的神经头像动画

使用视频驱动的动画模型，通过 LSTM 神经网络将人对应的表情特征转化为个性化的人物动画参数，从而实现了从视频输入中实现独立于个体的动画。

Mar, 2024

从视频中学习三维人体动力学

通过观察人类运动的视觉序列，我们可以轻松猜测人在过去和未来的 3D 运动。我们提出了一个可以学习人类 3D 动力学表示的框架，通过简单而有效的图像特征时间编码。在测试过程中，学习到的时空表示能够预测具有平稳性的 3D 网格。我们的模型可以从单个图像中恢复当前的 3D 网格以及它未来和过去的 3D 运动，同时也可以通过半监督学习从带有 2D 姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练，通过已有的 2D 姿态检测器得到伪基础真值 2D 姿态，证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。

Dec, 2018