基于步长变换器的时序上下文利用在三维人体姿态估计中的应用
本研究提出一种基于transformer的算法,能够在视频中实现3D人体姿态估计,通过对空间和时间进行变换,对每一帧中人体关节关系进行建模,并在中心帧上输出准确的3D人体姿态,该算法在Human3.6M和MPI-INF-3DHP数据集上实现了最先进的成果。
Mar, 2021
本文提出了一种基于 Transformer 的姿势提升方案,能够处理时间上稀疏的二维姿势序列,但仍能产生时间上密集的三维姿势估计。其采用掩码令牌建模来实现 Transformer 块内的时间上采样,可以大大降低总计算复杂度。在 Human3.6M 和 MPI-INF-3DHP 上评估表明,相对于现有的方法,所提出的方法在保持准确性的同时将推理时间降低了12倍,这提高了在不同应用中使用可变消费者硬件的实时吞吐量。
Oct, 2022
本文提出了一种基于图表的变形网络,实现了从二维人体姿态到三维人体姿态的估计和到三维人体网格参数的回归。该方法在保证精度的同时,优化了计算效率,具有广泛的实际应用价值。
Jan, 2023
本研究提出了一种名为PoseFormerV2的新型人体姿态估计方法,借助于在频域上紧凑的骨骼序列表示,以有效地扩大接受域并增强对噪声干扰的鲁棒性,进行时域和频域特征有效融合,相较于原始的PoseFormer和其他基于transformer的变体有更好的速度-准确性平衡。
Mar, 2023
本文提出了ConvFormer:一种新型的卷积变压器,新增了一种动态的多头卷积自注意机制用于单目3D人体姿势估计。通过对人体各关节点之间的关系进行建模,利用时间关节特征的新概念进行完全的时间信息融合,成功地在三个基准数据集上实现了SOTA水平的结果,相对于以前的变压器模型取得了显著的参数降低。
Apr, 2023
提出了一种用于减少Vision Transformers计算复杂度的简单方法,通过选择和处理最有信息的小片段,我们将二维人体姿态估计网络的结果作为指导进行小片段的选择,实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效,而且性能略微下降。
Jun, 2023
深度学习技术用于估计人体姿势时,由于仅凭借2D姿势估计存在深度模糊问题,这篇论文提出了一种新的框架,通过利用图像特征和逐步学习的方法解决了泛化能力差的问题,并在多个数据集上取得了最先进的性能。
Dec, 2023
通过提出一种新颖的编码器-解码器Transformer架构,结合多视角和时间信息、几何关系和2D姿态检测可信度,我们解决了估计多视图下遮挡和受限重叠视图的3D人体姿势的挑战。我们的实验表明该方法在传统三角定位方法的具有挑战性的遮挡场景和视图受限场景中表现出很好的效果。
Dec, 2023
单目人体姿态估计(HPE)是从相机捕捉的单个2D图像中确定人体关节的3D位置。本研究提出了一种EPOCH框架,利用完整的透视相机模型进行姿态估计,并通过无监督学习得到比现有方法更好的泛化性能和最先进的结果。
Jun, 2024
在这篇论文中,我们提出了一种全局方法来利用时空信息,采用紧凑的图和跳过Transformer架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络,在时序编码和解码阶段,使用简单有效的跳过Transformer捕捉长程时序依赖并实现分层特征聚合,同时引入动态信息到二维姿势序列中。通过在Human3.6M、MPI-INF-3DHP和Human-Eva基准测试集上进行广泛实验证明,G-SFormer系列方法相比之前的最新技术表现出更好的性能,仅具有约百分之十的参数量和显著降低的计算复杂度。此外,G-SFormer方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。
Jul, 2024