利用语义反馈实现智能边缘传感器的实时多视角三维人体姿态估计
通过使用新的基于 transformer 模型的框架,结合场景信息和长时空上下文,利用头戴设备提供的俯视图来更准确地估计包括蹲下和坐下等复杂动作的三维人体姿态,并提出了两个新的用于综合评估现有和即将推出方法的数据集 UnrealEgo2 和 UnrealEgo-RW。
Dec, 2023
本文介绍如何使用神经网络模型进行多摄像头人体姿势估计,在考虑多角度遮挡及联合位置不确定性情况下,使用 2D 关键点数据进行训练。相比于经典捆绑调整与弱监督单目 3D 基线方法,我们的模型在 Human3.6M 和 Ski-Pose PTZ 数据集上表现更好。
Aug, 2021
本文介绍了一种仅使用少量 Kinect 传感器进行无标记动作捕捉的高效且廉价方法,通过使用最近的图像分割技术和纯合成数据进行课程学习,实现了对身体各部位的准确本地化并且无需使用显式形状模型。同时,我们介绍了一个包含约 6 百万合成深度帧的新数据集,并超过了 Berkeley MHAD 数据集的最新结果。
May, 2016
本论文提出了一种基于多个校准相机视角的、面向实时应用的多人三维姿态估计解决方案,利用视频中的时间一致性直接在三维空间中匹配二维输入与三维姿态,通过跨视图多人跟踪迭代地更新姿态,从而提高了准确性和效率,并介绍了新的大规模多人数据集。
Mar, 2020
本文介绍了一种首个能够在实时环境中处理基本遮挡、能够适应 360 度全景相机和毫米波雷达传感器的多人姿态估计系统,通过使用实时的轻量级 2D-3D 姿态提升算法,在室内外环境中实现了准确的性能表现,提供了一种经济实惠且可扩展的解决方案,并且不论检测到的个体数量如何,系统的时间复杂度保持几乎恒定,能够在商用 GPU 的笔记本上达到大约 7-8 帧每秒的帧率。
Mar, 2024
本文提出了一种通过多视角的训练,使用一致性约束联合监督损失及惩罚项实现替代大量标注的 3D 人体姿态估计方法,并提出了一种联合估计相机姿态及人体姿态的方法,在 3D 人体姿态估计方面取得了良好的表现。
Mar, 2018
该研究通过基于束调整的算法从单眼视频中恢复准确的 3D 人体姿势和网格,通过在整个序列上重建人体来提供额外的约束并解决歧义问题。同时,该研究提出了一个包含超过 3 百万帧来自 Kinetics 的 YouTube 视频数据集,能够提高 3D 运动估计的准确性,该算法具有实际意义。
May, 2019
通过使用从目标活动的视频记录中得出的实时 2D 姿势估计派生的得出骨架数据,本文引入了一种解决这个问题的新方法,为识别最佳传感器位置提供了一种独特的策略。我们通过进行可行性研究验证了我们的方法,将惯性传感器应用于监测十个被试者的 13 种不同活动。我们的发现表明,基于视觉的传感器放置方法与传统的深度学习方法提供了可比较的结果,从而证明了它的有效性。该研究通过提供一种轻量级的、设备上的解决方案来确定最佳传感器位置,从而改进了数据匿名化,支持多模态分类方法,显著推进了人体活动识别领域。
Jul, 2023
该研究提出了一种基于深度学习的统一框架,通过将相机视频、运动传感器(GPS/IMU)和三维语义地图进行传感器融合,以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术,使用相机姿态和三维语义地图生成标注地图,并在深度神经网络中进行联合训练,以提高姿态估计精度。该研究表明,相较于单一传感器,传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。
May, 2018
该论文提出了一种基于多视角视频的多视角一致半监督学习框架,利用未经注释、未校准但同步的多视角视频中的姿态信息相似性作为额外的弱监督信号来引导 3D 人体姿势回归,该方法通过硬负采样来建立多视角一致的姿态嵌入,并结合有限的 3D 姿态注释来完善该模型,从而在两种公开数据集上实现了视角不变的姿态检索。
Aug, 2019