运动化身:生成具备任意动作的人和动物化身
MagicAvatar 是一种用于多模态视频生成和人体化身动画的框架,通过将动作明确分离为两个阶段:多模态到动作转换和动作到视频生成,在提供的人物图像的基础上能够实现简单的人物动画和根据第一阶段产生的具体动作实现特定身份的人物动画。
Aug, 2023
本文旨在从文本描述中生成多样且逼真的动物运动序列,无需大规模动物文本 - 运动数据集。通过设计一个模仿 GPT 的模型架构,利用从人类数据中学到的先验知识应用于动物领域,我们可以联合训练动物和人类运动的运动自编码器,并同时优化人类运动编码、动物运动编码和文本 CLIP 嵌入之间的相似性分数。我们创造性地解决了该问题,并能够生成具有高多样性和逼真度的动物运动,数量和质量上均优于在动物数据上训练人类运动生成基线的结果。此外,我们还推出了 AnimalML3D,第一个包含 1240 个动画序列和 36 种不同动物身份的文本 - 动物运动数据集。我们希望这个数据集能够解决文本驱动动物运动生成中的数据稀缺问题,并为研究社区提供一个新的研究平台。
Nov, 2023
本文提出 AvatarGen 方法,是第一种通过仅使用 2D 图像训练,能够生成高保真度外观和可控几何形状的、解耦式的可控人体动画的方法。
Nov, 2022
我们提出了一种从单目视频中构建可动画的狗头像的方法,通过解决动物的姿态变化和外观问题,提高了基于模板的形状拟合的质量。我们的方法在 CoP3D 和 APTv2 数据集上展示了优异的结果。
Mar, 2024
通过 AvatarStudio 生成高质量的、可动画的 3D 人物头像,首先使用低分辨率的基于 NeRF 的表示进行初步生成,然后结合 SMPL 引导关节活动增加明确的网格表示并支持头像动画和高分辨率渲染,在结果头像中引入基于 DensePose 的 2D 扩散模型以确保视角一致性和姿态可控性,利用 AvatarStudio 可以从文本中生成高质量的头像并具备动态效果,优于之前的方法,并且适用于多模态头像动画和风格引导头像创作等多个应用。
Nov, 2023
我们的研究目标是创建可以自主规划和模拟细致逼真的面部动作的交互式化身代理机器人,从视觉和行为角度进行研究。我们的研究通过将大规模语言模型应用到化身代理机器人面部动作描述生成中,再通过神经渲染器生成最终逼真的化身动画,并经过实验证实了这一方法的有效性和通用性。
Nov, 2023
人体运动生成是生成自然人体姿势序列的目标,具有广泛的实际应用潜力。本文是人体运动生成领域的首篇综述文献,介绍了人体运动和生成模型的背景,并对三个主流子任务(文本条件、音频条件和场景条件的人体运动生成)的代表方法进行了审查。此外,还概述了常见数据集和评估指标,并讨论了开放问题和潜在的未来研究方向。希望该综述能够为社区提供对这个快速发展领域的全面了解,并激发解决尚未解决的挑战的新思路。
Jul, 2023
通过 Virtual Pet 管道,我们介绍了一种解锁生成模型在沉浸式 4D 体验中潜力的方法,用于在 3D 环境中为目标动物物种建模真实多样的动作。通过利用单眼互联网视频并提取可变形 NeRF 表示前景和静态 NeRF 表示背景来规避与环境几何对齐的 3D 动作数据的有限可用性。我们展示了我们的管道的有效性,使用猫视频进行了全面的定性和定量评估,并表明在未见过的猫和室内环境中也具有多样性,为丰富的虚拟体验产生了时间上连续的 4D 输出。
Dec, 2023
DreamHuman 是一种从文本描述自动生成逼真可动的三维人物头像模型的方法,该方法将大规模的文本到图像合成模型、神经辐射场和统计人体模型连接在一起,以新颖的建模和优化框架产生动态三维人物头像,具有高质量的纹理、实例特定的表面变形和多样化的外观、衣着、肤色和身体形态。
Jun, 2023
AvatarGPT 是一个全能的运动理解、规划、生成等任务的框架,以及基于 LLM 的动作中间合成等其他任务,通过语言作为通用接口,构成一个闭环。通过将人类运动序列编码为离散的标记,并开发一个无监督的管道来从野外视频中生成人类行动序列的自然语言描述,最终实现了各个任务的联合训练。广泛的实验证明,AvatarGPT 在低级任务上达到了最先进水平,在高级任务上取得了有希望的结果,证明了我们提出的全能框架的有效性。此外,AvatarGPT 首次实现了通过闭环内的任务迭代遍历进行无限长运动合成的原则性方法。
Nov, 2023