通过跨模态流形对齐从单眼视频学习人类动作

Apr, 2024

通过跨模态流形对齐从单眼视频学习人类动作

Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment

Shuaiying Hou, Hongyu Tao, Junheng Fang, Changqing Zou, Hujun Bao...

TL;DR该论文介绍了通过视频和2D关键点之间的跨模态潜在特征空间对三维人体运动和2D输入之间进行运动先验对齐的Video-to-Motion Generator (VTM)，该方法通过将运动数据分别建模为上半身和下半身，以及使用尺度不变的虚拟骨架与运动数据对齐，展示了在重建单目视频中的三维人体运动方面具有领先水平的表现，尤其是在未见过的视角和野外视频中的泛化能力。

Abstract

Learning 3d human motion from 2d inputs is a fundamental task in the realms of computer vision and computer graphics. Many previous methods grapple with this inherently ambiguous task by introducing →

发现论文，激发创造

从视频中学习三维人体动力学

通过观察人类运动的视觉序列，我们可以轻松猜测人在过去和未来的3D运动。我们提出了一个可以学习人类3D动力学表示的框架，通过简单而有效的图像特征时间编码。在测试过程中，学习到的时空表示能够预测具有平稳性的3D网格。我们的模型可以从单个图像中恢复当前的3D网格以及它未来和过去的3D运动，同时也可以通过半监督学习从带有2D姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练，通过已有的2D姿态检测器得到伪基础真值2D姿态，证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。

Dec, 2018

2D动作重定向中的跨字符动作学习

本文提出了一种新的方法，通过使用神经网络从视频中提取人体运动的高级潜在表示的方法，实现了不需要显式重建三维姿态和/或相机参数的不同人类表演者之间的视频捕获运动的再定向。

May, 2019

单目视频中全三维网格人体姿态的时间连续恢复

该研究论文提出了一种基于深度学习和递归神经网络的方法，采用含有3D注释的合成单眼视频来恢复完整的3D人体姿势，并在定量和定性分析中证明了该方法的有效性。

Jun, 2019

使用骨架一致性从单目视频中重建3D人体运动

MotioNet是一种用于从单眼视频中重建 3D 人体骨骼运动的深度神经网络，通过嵌入运动先验信息的深度神经网络将 2D 关节位置序列分解为对称骨骼和与全局根位置和足接触标签相关联的 3D 关节旋转序列，并在 3D 位置上应用正向运动学，使用敌对损失确保恢复的旋转速度处于自然关节旋转曲面上的关键优势使其能够直接从训练数据中学习到自然的关节旋转。

Jun, 2020

使用VAEs的任务通用分层人体动作先验

本研究提出了一种新的深度生成模型，利用组合的全局和局部潜空间进行粗细粒度建模，独立于特定任务地学习复杂的人体运动，并在视频中基于人体姿态估计、运动捕捉系统中模拟完整的身体运动并进行可信的关键帧动画辅助。该通用的人体运动模型可以修复损坏的人体动画，从不完整的观察中生成完整的运动。

Jun, 2021

学习用于人体网格恢复的本地循环模型

提出一种结合骨架模型、将人类网格划分为多个局部部分并使用单独的循环模型建模每个局部部分动态的新方法，进行视频网格恢复，最终实现了在多个基准数据集上的最先进结果。

Jul, 2021

Learnable Motion Generation实现3D人体姿势估计的跨数据集自适应

该论文提出了一种名为AdaptPose的端到端框架，通过生成合成的3D人体动作数据，并在新数据集上通过微调来提高3D姿态估计模型的泛化能力，该方法成功地比之前的交叉数据集评估方法和使用部分3D注释的半监督学习方法改进了14%和16%。

Dec, 2021

使用独立标记捕捉每个关节的动作：三维人体姿态和形状估计

提出一种基于Transformer的模型，使用三种独立的tokens学习人体的3D关节旋转，身体形状和位置信息，进而估算SMPL参数，从而解决单目图像或视频中3D人体姿态和形状估计的困难问题，并具有较好性能。

Mar, 2023

增强时空上下文：单目视频中具有时态一致性的稳健3D人体动作恢复

提出了一种从单眼视频中恢复时间一致的3D人体姿势、形状和动作的方法，通过使用具有身体感知特征表示和独立的逐帧姿势和相机初始化，结合自相似性和自注意力等技术进行时空特征聚合，该方法提供了增强的时空上下文，可在各种复杂场景下得到更准确的姿势估计和形状重建。

Nov, 2023

使用运动块探索 Vision Transformers 用于 3D 人体动作语言模型

构建3D人体动作与语言之间的跨模态潜空间对于获取大规模高质量的人体动作数据至关重要，然而，与图像数据的丰富相比，动作数据的稀缺限制了现有动作语言模型的性能，为了解决这个问题，我们介绍了“动作补丁”的新表示方法，并通过迁移学习，提出使用视觉变换器（ViT）作为动作编码器，旨在从图像域中提取有用的知识并应用于动作域，我们发现通过使用训练2D图像数据获得的ViT的预训练权重进行迁移学习可以提高动作分析的性能，为解决有限动作数据的问题提供了一个有希望的方向，我们广泛的实验证明了所提出的动作补丁与ViT的联合使用在文本到动作检索以及其他新颖的具有挑战性的任务中取得了最先进的性能，例如跨骨架识别、零样本动作分类和人体交互识别，这些任务目前由于数据缺乏而受到限制。

May, 2024