利用语义反馈实现智能边缘传感器的实时多视角三维人体姿态估计

Jun, 2021

利用语义反馈实现智能边缘传感器的实时多视角三维人体姿态估计

Real-Time Multi-View 3D Human Pose Estimation using Semantic Feedback to Smart Edge Sensors

Simon Bultmann, Sven Behnke

TL;DR通过分布式智能边缘传感器以及语义反馈循环的后端，我们提出了一种从多摄像机设备中估计 3D 人体姿态的新方法，其只传输语义骨架表示，能够实现实时操作并取得了最佳结果。

Abstract

We present a novel method for estimation of 3d human poses from a multi-camera setup, employing distributed smart edge sensors coupled wit

3d human poses multi-camera setup smart edge sensors semantic feedback loop real-time operation

发现论文，激发创造

从主观立体视频中感知 3D 人体姿势

通过使用新的基于 transformer 模型的框架，结合场景信息和长时空上下文，利用头戴设备提供的俯视图来更准确地估计包括蹲下和坐下等复杂动作的三维人体姿态，并提出了两个新的用于综合评估现有和即将推出方法的数据集 UnrealEgo2 和 UnrealEgo-RW。

Dec, 2023

MetaPose: 无需 3D 监督，快速从多视图中获得 3D 姿态

本文介绍如何使用神经网络模型进行多摄像头人体姿势估计，在考虑多角度遮挡及联合位置不确定性情况下，使用 2D 关键点数据进行训练。相比于经典捆绑调整与弱监督单目 3D 基线方法，我们的模型在 Human3.6M 和 Ski-Pose PTZ 数据集上表现更好。

Aug, 2021

多深度相机实时人体运动捕捉

本文介绍了一种仅使用少量 Kinect 传感器进行无标记动作捕捉的高效且廉价方法，通过使用最近的图像分割技术和纯合成数据进行课程学习，实现了对身体各部位的准确本地化并且无需使用显式形状模型。同时，我们介绍了一个包含约 6 百万合成深度帧的新数据集，并超过了 Berkeley MHAD 数据集的最新结果。

May, 2016

实现超过 100 FPS 的多人 3D 姿态估计的跨视图跟踪

本论文提出了一种基于多个校准相机视角的、面向实时应用的多人三维姿态估计解决方案，利用视频中的时间一致性直接在三维空间中匹配二维输入与三维姿态，通过跨视图多人跟踪迭代地更新姿态，从而提高了准确性和效率，并介绍了新的大规模多人数据集。

Mar, 2020

基于人匹配和无监督 2D-3D 提升的实时全向三维多人姿势估计的改进

本文介绍了一种首个能够在实时环境中处理基本遮挡、能够适应 360 度全景相机和毫米波雷达传感器的多人姿态估计系统，通过使用实时的轻量级 2D-3D 姿态提升算法，在室内外环境中实现了准确的性能表现，提供了一种经济实惠且可扩展的解决方案，并且不论检测到的个体数量如何，系统的时间复杂度保持几乎恒定，能够在商用 GPU 的笔记本上达到大约 7-8 帧每秒的帧率。

Mar, 2024

从多视角图像学习单目三维人体姿态估计

本文提出了一种通过多视角的训练，使用一致性约束联合监督损失及惩罚项实现替代大量标注的 3D 人体姿态估计方法，并提出了一种联合估计相机姿态及人体姿态的方法，在 3D 人体姿态估计方面取得了良好的表现。

Mar, 2018

利用时间上下文对野外三维人体姿态估计进行改进

该研究通过基于束调整的算法从单眼视频中恢复准确的 3D 人体姿势和网格，通过在整个序列上重建人体来提供额外的约束并解决歧义问题。同时，该研究提出了一个包含超过 3 百万帧来自 Kinetics 的 YouTube 视频数据集，能够提高 3D 运动估计的准确性，该算法具有实际意义。

May, 2019

一种用于传感器基于的人体活动识别的最佳传感器位置实时人体姿势估计方法

通过使用从目标活动的视频记录中得出的实时 2D 姿势估计派生的得出骨架数据，本文引入了一种解决这个问题的新方法，为识别最佳传感器位置提供了一种独特的策略。我们通过进行可行性研究验证了我们的方法，将惯性传感器应用于监测十个被试者的 13 种不同活动。我们的发现表明，基于视觉的传感器放置方法与传统的深度学习方法提供了可比较的结果，从而证明了它的有效性。该研究通过提供一种轻量级的、设备上的解决方案来确定最佳传感器位置，从而改进了数据匿名化，支持多模态分类方法，显著推进了人体活动识别领域。

Jul, 2023

DeLS-3D: 3D 语义地图的深度定位与分割

该研究提出了一种基于深度学习的统一框架，通过将相机视频、运动传感器（GPS/IMU）和三维语义地图进行传感器融合，以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术，使用相机姿态和三维语义地图生成标注地图，并在深度神经网络中进行联合训练，以提高姿态估计精度。该研究表明，相较于单一传感器，传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。

May, 2018

3D 人体姿势估计的多视图一致半监督学习

该论文提出了一种基于多视角视频的多视角一致半监督学习框架，利用未经注释、未校准但同步的多视角视频中的姿态信息相似性作为额外的弱监督信号来引导 3D 人体姿势回归，该方法通过硬负采样来建立多视角一致的姿态嵌入，并结合有限的 3D 姿态注释来完善该模型，从而在两种公开数据集上实现了视角不变的姿态检索。

Aug, 2019