- 多条件潜在扩散网络用于场景感知神经人体运动预测
通过使用多条件潜在扩散网络,该研究提出了一种重塑人体运动预测任务的方法,该任务基于给定的历史三维身体运动和当前三维场景上下文,以实现人体运动的预测。实验结果表明,该方法在真实和多样化的预测中显著优于现有技术。
- 通过跨模态流形对齐从单眼视频学习人类动作
该论文介绍了通过视频和 2D 关键点之间的跨模态潜在特征空间对三维人体运动和 2D 输入之间进行运动先验对齐的 Video-to-Motion Generator (VTM),该方法通过将运动数据分别建模为上半身和下半身,以及使用尺度不变的 - PhysPT:从单眼视频估计人体动力学的物理感知预训练变压器
当前方法在从单目视频中估计 3D 人体动作方面取得了有希望的进展,本文提出了一种考虑物理学规律的预训练变压器(PhysPT),改进了基于运动学的动作估计并推断了运动力。实验证明,经过训练后的 PhysPT 能够直接应用于运动学估计,显著增强 - 基于文本的 3D 人体动作生成的多轨道时间线控制
使用时间轴控制的文本驱动动作合成方法,通过多个文本输入来指定时间轴内的多个动作以及精确定义各个动作的持续时间,并使用新的测试时间去噪方法生成真实的动作序列。
- 基础到高级的分层传播模型实现详细的文本到动作合成
提出了一种基础到高级的分层扩散模型(B2A-HDM),用于协同利用低维和高维扩散模型进行高质量的详细动作合成,其多变量去噪框架和生成潜力的全面探索使其在真实性、模态一致性和多样性方面优于现有的顶尖方法。
- 使用准确的 3D 动作重建基于世界环境的人类
通过使用运动捕捉数据将 2D 关键点序列提升到 3D,并将其与视频特征融合,WHAM 能够准确高效地从视频中重建 3D 人体动作,并利用摄像机角速度和人体运动估计了身体的全局轨迹,同时结合了一个联系感知的轨迹细化方法,使 WHAM 能够在不 - 基于时间感知的视频人体姿态与形状恢复的改进
通过提出一个 Temporal-Aware Refining Network (TAR),本文探索了对于精确的姿势和形状恢复而言的全局和局部图像特征的时间感知,实现了比现有方法更准确的结果。
- 我们能否使用扩散概率模型进行三维运动预测?
本研究评估了扩散概率模型在 3D 人体运动预测任务中的潜力。通过对人类 3.6M 和 HumanEva-I 数据集的研究,我们发现扩散概率模型可以在单个(确定性)和多个(随机性)3D 运动预测任务中具有竞争力,并且可以在单个训练过程完成后达 - CVPR从野外视频中分离人类与摄像机运动
本研究提出了一种从野外视频中重建全球人类轨迹的方法,该优化方法将相机和人类运动解耦,减少背景像素对推断 3D 人类运动的影响,使用数据驱动的先验信息来恢复全局人类轨迹。
- AAAI多人动作标签的长期三维人体运动生成
该论文介绍了一个名为 MultiAct 的框架,用于从多个动作标签中生成长期的 3D 人体运动,该框架结合了动作和运动条件,可以控制生成的真实的长期运动。
- CVPR通过自我头部姿态估计进行自我身体姿态估计
该研究介绍了一种新方法,利用头部运动作为中间表示,将三维人体运动的预测分解为两个阶段,并使用条件扩散生成多个可能的全身动作,消除了需要训练配对数据集的需求,可以分别利用大规模的追踪数据集和运动捕捉数据集。
- MotionCLIP: 将人体动作生成暴露到 CLIP 空间
MotionCLIP 是一种 3D 人体运动自编码器,在 latent space 中对接 CLIP 模型,以获得无与伦比的文本到运动的能力,实现了跨域动作,编辑和抽象语言规范等功能。
- ICCV学习 3D 场景中 4D 人体捕捉的动作先验
本研究提出了一种名为 LEMO 的人体运动先验方法来从单目视频中恢复复杂场景中高质量的 3D 人体运动,该方法利用大规模运动捕捉数据集 AMASS,引入了一种新的运动平滑性先验,可大大减少序列中出现的姿态抖动,并通过自监督学习获得了接触和遮 - CVPRSimPoE: 用于三维人体姿势估计的模拟角色控制
SimPoE 是一种基于模拟的 3D 人体姿势估计方法,结合了基于图像的动力学推断和基于物理的动态建模,通过强化学习联合学习运动中的运动学姿态精细化单元以及基于动力学的控制生成单元,提高了姿势估计的准确性和物理可信度。
- 在 3D 场景中合成长期的 3D 人体动作和互动
本文提出一种层次生成框架,通过优化多个几何约束和建模场景互动和应用来合成涉及长期 3D 人体动作的逼真生成,并在实验中得出了比之前更好的实验结果。
- CVPR从视频获取时间上连贯的 3D 人体姿态和形状的非静态特征研究
该研究提出了一种基于视频的 3D 人体运动重建系统,该系统有效聚焦于过去和未来帧的时间信息,从而更好地解决了单张图像方法的时间不一致性问题。通过在帧间进行时间一致性的处理,该系统达到了更好的运动姿态和形状精度。
- ECCV单目视频中的接触与人类动力学
本文介绍了一种基于物理模型的方法,用于从视频中推断 3D 人体运动,该方法利用初始的 2D 和 3D 姿态估计作为输入,并通过物理轨迹优化得出一个符合物理规律的运动。实验结果显示,相较于纯运动学方法,该方法能够显著地提高动作的真实性和准确性 - 用于三维人体运动预测的时空转换器
本文提出一种新颖的基于 Transformer 的架构,用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入,通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨 - 基于时空修补的人体运动预测
本文在三个主要方面提出了改进:(1)使用生成对抗网络(GAN)预测 3D 人体动作,(2)设计架构来学习身体姿势和全局动作的联合分布,(3)提出了基于频率分布的两种替代指标来反映长期人类运动的实际分布,结果表明本文方法显著改善了现有技术,同 - 基于时间的准确无标记人体形态和姿势估计
本文提出了一种基于 SMPLify 方法的全自动方法,可以从多视角视频中估计三维人体运动和身体形状,并利用 CNN 方法和 DCT 时间先验方法来提高精度,并且在标准基准测试中的结果与最先进的方法相当,同时还提供了一个逼真的 3D 形状 A