具有空间和时间嵌入的多人关节跟踪
本文提出了一种针对无限约束视频中多人的关节追踪方法,利用简化稀疏的身体关系图和最近的快速推断方法,以及将计算量转移到卷积结构上;并将关节定位方案用于构建关节追踪形式,解决了所有场景中的关联问题,并已在公共 MPII Human Pose 基准测试中取得最新结果。
Dec, 2016
我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架,利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性,实验结果表明我们的方法在 Human3.6M 数据集上表现出色。
Jan, 2024
该论文提出了一种新的视频实例分割方法,基于单阶段的 3D 空间 - 时间体积建模,使用时空嵌入技术聚类像素特征,通过单阶段网络实现端到端训练和推理,取得了多项最先进结果。
Mar, 2020
在这篇论文中,我们提出了一种全局方法来利用时空信息,采用紧凑的图和跳过 Transformer 架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络,在时序编码和解码阶段,使用简单有效的跳过 Transformer 捕捉长程时序依赖并实现分层特征聚合,同时引入动态信息到二维姿势序列中。通过在 Human3.6M、MPI-INF-3DHP 和 Human-Eva 基准测试集上进行广泛实验证明,G-SFormer 系列方法相比之前的最新技术表现出更好的性能,仅具有约百分之十的参数量和显著降低的计算复杂度。此外,G-SFormer 方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。
Jul, 2024
通过自我监督学习利用时空关系进行姿态嵌入的深度卷积网络,包括时序和空间任务,在数据采样中利用一种课程学习方法,并挖掘单个视频中的重复姿态,以提高姿势估计和检索效果。
Aug, 2017
本研究提出了一种新颖的视频实例分割嵌入式方法,该方法通过融合外观、运动和几何等多种线索来学习时空嵌入,其中,运动由 3D 因果卷积网络模拟,几何由单目自监督深度损失模拟。在这种嵌入空间中,同一实例的视频像素被聚类在一起,同时与其他实例分离,从而自然地跟踪实例而不需要任何复杂的后处理,而且实时性能良好。研究结果表明,该模型在 KITTI 多物体和跟踪数据集上可以准确地跟踪和分割实例,即使存在遮挡和遗漏检测等问题,也能推进同类算法的发展。
Dec, 2019
TEMPO 是一种高效的多视角姿势估计模型,通过学习稳健的时空表示,提高了姿势准确性,同时还能跟踪和预测人体姿势。该模型通过循环计算个人的二维姿势特征,将空间和时间信息融合成一种表示,并利用时空上下文预测更准确的人体姿势,同时保持高效性。该模型能够跨数据集泛化而无需场景特定微调,达到了相比 TesseTrack 在具有挑战性的 CMU Panoptic Studio 数据集上 MPJPE 提升 10%,帧率提升 33 倍的效果。
Sep, 2023
提出了一种基于 KeyTrack 的多人姿势跟踪方法,使用 Pose Entailment 方法跟踪人体关键点,使用 Transformer-based 网络分类判断姿势是否在时间上紧随另一个姿势,同时还使用一种无需参数的关键点精细化技术改进估计方法,在 PoseTrack'17 和 PoseTrack'18 基准测试中取得了最先进的结果。
Dec, 2019
本文提出了一种在线多人姿态跟踪方法,通过构建时空网络,利用多人姿态估计方法的空间网络提取图像特征和姿态特征,预测时间流场,并在二分图优化问题中使用相似性作为二元潜势实现多姿态追踪,展示了相对较小的 CNN 网络可以学习这些 TFF,同时实现最先进的多人姿态跟踪结果。
May, 2018
本文提出一种基于 2D CNN 的新网络 TrajectoryNet,用于预测轨迹空间中未来的姿势,重点在于对先前姿势序列的耦合时空特征、局部全局空间特征和全局时间共现特征的建模,实验结果表明所提出方法在 3 个基准测试上达到了最先进的效果。
Oct, 2019