使用空间和时间转换器的三维人体姿势估计
本文提出改进的基于Transformer的Strided Transformer架构,以简单有效地将冗余的2D姿势序列提升到单个3D姿势。通过给Vanilla Transformer编码器换成步幅卷积的方式,降低了序列的冗余性,同时设计了全-单监督方案来约束输出,从而在两个基准数据集上获得了最佳结果并减少了参数。
Mar, 2021
本文提出了一种名为Multi-Hypothesis Transformer (MHFormer)的模型,旨在通过学习多个合理的姿势假设的空时表示,解决单目视频中的3D人体姿态估计问题,并在两个具有挑战性的数据集上取得了最新的最优结果。
Nov, 2021
提出一种基于Transformer的模型,使用三种独立的tokens学习人体的3D关节旋转,身体形状和位置信息,进而估算SMPL参数,从而解决单目图像或视频中3D人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023
本研究提出了一种名为PoseFormerV2的新型人体姿态估计方法,借助于在频域上紧凑的骨骼序列表示,以有效地扩大接受域并增强对噪声干扰的鲁棒性,进行时域和频域特征有效融合,相较于原始的PoseFormer和其他基于transformer的变体有更好的速度-准确性平衡。
Mar, 2023
本文提出了ConvFormer:一种新型的卷积变压器,新增了一种动态的多头卷积自注意机制用于单目3D人体姿势估计。通过对人体各关节点之间的关系进行建模,利用时间关节特征的新概念进行完全的时间信息融合,成功地在三个基准数据集上实现了SOTA水平的结果,相对于以前的变压器模型取得了显著的参数降低。
Apr, 2023
通过引入RTPCA Transformer,利用时间维度的Temporal Pyramidal Compression-and-Amplification(TPCA)结构和Cross-Layer Refinement(XLR)模块,从而扩展了时间建模和增强了特征交互,通过不断的查询、关键词和数值的交互促进了丰富的语义表达,显著提高了人类运动序列的3D姿势估计准确度。
Sep, 2023
我们提出了一种新颖的Attention-GCNFormer(AGFormer)模块,通过使用两个并行的Transformer和GCNFormer流来减少通道数,以精确捕捉邻接关节之间的局部依赖关系。通过以适应性方式融合这两种表示,AGFormer模块在学习底层3D结构方面表现出更好的能力。通过堆叠多个AGFormer模块,我们提出了四个不同变体的MotionAGFormer模型,可以根据速度-准确性的权衡来选择。我们在两个常用基准数据集Human3.6M和MPI-INF-3DHP上评估了我们的模型。MotionAGFormer-B取得了最先进的结果,分别为38.4mm和16.2mm的P1错误率。值得注意的是,与Human3.6M数据集上的前一最先进模型相比,它使用了四分之一的参数,并且计算效率提高了三倍。该模型的代码和模型可在指定的网址上获得。
Oct, 2023
使用现有的2D姿态检测器产生的中间可视化表示,从而获得姿态的空间上下文信息。通过设计一个名为Context-Aware PoseFormer的简单基线方法来展示其有效性,该方法在速度和精度方面明显优于其他使用数百个视频帧的最先进方法。
Nov, 2023
提出了一种基于Transformer的3D人体姿态估计的剪枝和恢复框架,通过选择具有高语义多样性和消除视频帧冗余的少量代表性Token,在中间Transformer块中有效地提高模型效率。
Nov, 2023
通过提出一种新颖的编码器-解码器Transformer架构,结合多视角和时间信息、几何关系和2D姿态检测可信度,我们解决了估计多视图下遮挡和受限重叠视图的3D人体姿势的挑战。我们的实验表明该方法在传统三角定位方法的具有挑战性的遮挡场景和视图受限场景中表现出很好的效果。
Dec, 2023