HMD-NeMo：基于稀疏观测的在线 3D 头盔角色动作生成

ICCVAug, 2023

HMD-NeMo：基于稀疏观测的在线 3D 头盔角色动作生成

HMD-NeMo: Online 3D Avatar Motion Generation From Sparse Observations

Sadegh Aliakbarian, Fatemeh Saleh, David Collier, Pashmina Cameron, Darren Cosker

TL;DR在本文中，我们提出了一种名为 HMD-NeMo 的轻量级神经网络，可以在线实时地预测全身动作，解决了只能部分可见手部情况下的全身动作生成问题，并在 AMASS 数据集上达到了新的最先进水平。

Abstract

Generating both plausible and accurate full body avatar motion is the key to the quality of immersive experiences in mixed reality scenarios. Head-Mounted Devices (HMDs) typically only provide a few input signals, such as head and hands 6-DoF. Recently, different approaches achieved impressive performance in generating →

full body motion head-mounted devices hand visibility egocentric hand tracking hmd-nemo

发现论文，激发创造

HMD-Poser：基于可扩展稀疏观测的设备端实时人体动作跟踪

使用 HMD-Poser 方法实现了基于 VR 头戴式显示器的人体实时运动追踪，通过 HMD 和穿戴式 IMUs 之间的观察数据，提高了追踪精确度和易于佩戴性。通过实验表明，HMD-Poser 在精确度和实时性方面达到了最新的最佳效果，并通过实时的 Avatar-driving 应用程序证明了其性能。

Mar, 2024

基于关节级建模的稀疏观测的逼真全身跟踪

提出了一个两阶段的框架，仅利用头部和手部的追踪信号可以获取准确而平滑的全身动作，通过学习大规模动作数据解决实时身体追踪的问题，并通过关节级特征建模和损失函数设计提高精确度和平滑度。在 AMASS 运动数据集和真实捕获数据上的广泛实验验证了设计的有效性，并表明相比现有方法，我们的提出的方法可以实现更准确和平滑的运动。

Aug, 2023

AvatarPoser: 从稀疏动作感知中获取关节化全身姿势跟踪

AvatarPoser 是第一个仅使用用户的头部和手部运动输入来预测世界坐标中全身姿势的基于学习的方法，具有较高的准确性和实时操作速度，并能够提供支持 Metaverse 应用的全面性化虚拟人物控制和表现的实用界面。

Jul, 2022

HOIMotion: 使用自我中心的 3D 物体边界框预测人与物体交互中的人体动作

HOIMotion 利用过去的人体姿势和视角 3D 物体边界框信息进行人体运动预测，通过编码器 - 残差图卷积网络和多层感知器从姿势和物体特征中提取特征，将姿势和物体特征融合成新颖的姿势 - 物体图，并使用残差解码器图卷积网络预测未来的人体运动。我们在 Aria 数字孪生（ADT）和 MoGaze 数据集上广泛评估了我们的方法，并显示 HOIMotion 在关节位置误差平均值方面相较于最先进的方法取得了高达 8.7％（ADT）和 7.2％（MoGaze）的显著改进。为了补充这些评估结果，我们报告了一项人类研究（N=20），表明我们的方法的改进使预测的姿势被认为比现有方法更精确和更逼真。综上所述，这些结果揭示了视角 3D 物体边界框对人体运动预测的重要信息内容以及我们的方法在利用该信息方面的有效性。

Jul, 2024

基于目标运动引导的人类运动合成

通过将物体运动作为条件，我们提出了一种能够从物体运动中生成全身操作行为的条件扩散框架（OMOMO），该框架学习两个独立的去噪过程，首先从物体运动中预测手的位置，然后基于预测的手位置合成全身姿势，从而显式地强制执行接触约束，从而产生更加真实可信的操作动作。

Sep, 2023

基于流的稀疏观测生成三维头像

针对在协作和交流中需要产生逼真可信的虚拟人物角色，本文提出了一种基于流的 3D 人体生成模型，通过学习 3D 人体姿势的条件分布和从观察到的数据到潜在空间的概率映射，生成能够确定关节不确定度的虚拟角色动作，证明了该方法不仅是一个强大的预测模型，还可以在各种优化环境中充当一个高效的姿势先验。

Mar, 2022

移动头戴式显示设备上的实时自我中心手势识别

本文演示了在移动 VR 头戴式显示器上实时实现自我中心手势检测和定位的方法。通过创新的混合现实数据收集工具，以及超过 400,000 帧的最大自我中心手势和边界框数据集，在现代移动 CPU 上实现的神经网络可以在 8 个类别中实现超过 76％的手势识别精度。

Dec, 2017

MoEmo 视觉变换器：在 HRI 情感检测中整合交叉注意力和运动向量的 3D 姿势估计

本研究通过使用 MoEmo（Motion to Emotion），一种基于 3D 人体姿势估计的交叉注意力视觉变换器（ViT），以及基于人类姿势和环境背景的人体运动全身视频和相应情感标签的数据集，有效地利用人类姿势 / 姿态的运动向量和环境背景的特征图之间的微妙连接，实现了机器人系统中的情感检测，优于目前的最先进方法。

Oct, 2023

NeMo: 鲁棒的三维姿态估计的对比特征的神经网格模型

本文研究 3D 姿态估计问题中常见的物体部分遮挡或者从未见过的视角所导致的深度学习问题，通过将深度神经网络与物体的三维生成表示相结合，提出了一种名为 NeMo 的神经架构，该方法在不需要真实的 3D 几何体来进行准确的 3D 姿态估计方面具有更强的鲁棒性，并使用对比学习的方法来训练特征提取器以增强其鲁棒性。在 PASCAL3D +，occluded-PASCAL3D + 和 ObjectNet3D 数据集上的广泛实验证明，NeMo 相对于标准深度网络具有更好的性能和更强的鲁棒性。

Jan, 2021

稀疏观测下的分层化角色生成

从 AR / VR 设备中估计 3D 全身化身对于创建 AR / VR 应用程序中的沉浸式体验至关重要。本文提出了一种分层方法，将传统的全身化身重建流程解耦为两个阶段，首先重建上半身，然后在先前阶段的基础上重建下半身。通过潜在扩散模型作为强大的概率生成器，并训练其遵循由 VQ-VAE 编码器 - 解码器模型探索的解耦动作的潜在分布，我们在 AMASS mocap 数据集上进行的广泛实验证明了我们在全身动作重建方面的最先进性能。

May, 2024