使用渐进式视频变换器进行端到端多人 3D 姿势和形状估计
本文提出改进的基于 Transformer 的 Strided Transformer 架构,以简单有效地将冗余的 2D 姿势序列提升到单个 3D 姿势。通过给 Vanilla Transformer 编码器换成步幅卷积的方式,降低了序列的冗余性,同时设计了全 - 单监督方案来约束输出,从而在两个基准数据集上获得了最佳结果并减少了参数。
Mar, 2021
本文提出了一种基于实例引导视频变换器(IVT)的范式,该范式可以从视觉特征中有效地学习时空上下文深度信息,并直接从视频帧中预测 3D 姿势,实验结果显示该方法在三个广泛使用的 3D 姿势评估基准上取得了最先进的表现。
Aug, 2022
我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架,利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性,实验结果表明我们的方法在 Human3.6M 数据集上表现出色。
Jan, 2024
本文提出了一种叫做 MixSTE 的混合的时空编码器,该编码器通过时间和空间变换块分别对每个关节的运动进行建模以及学习关节之间的空间相关性,可在 3D 人体姿态估计任务上取得更好的性能表现。
Mar, 2022
本论文提出了一种基于 PTSEFormer 的对象检测方法,该方法引入了上下文框架、时间信息、空间信息来提高模型性能,其通过注意力机制与视觉特征的集成实现时间信息的引入,同时通过 Spatial Transition Awareness Model 实现了上下文特征之间的空间信息的集成,最终在 ImageNet VID 数据集上取得了 88.1% mAP 的表现。
Sep, 2022
该研究提出了一种名为 MvP 的多视角姿态变换器,用于从多视角图像中估计多人的三维姿态,该方法可以直接回归多人三维姿态,并使用几种技术来提高准确性,该模型在多项指标上表现优秀。
Nov, 2021
在这篇论文中,我们提出了一种全局方法来利用时空信息,采用紧凑的图和跳过 Transformer 架构实现高效的三维人体姿势估计。通过使用自适应拓扑的粗粒度身体部件构建空间图网络,在时序编码和解码阶段,使用简单有效的跳过 Transformer 捕捉长程时序依赖并实现分层特征聚合,同时引入动态信息到二维姿势序列中。通过在 Human3.6M、MPI-INF-3DHP 和 Human-Eva 基准测试集上进行广泛实验证明,G-SFormer 系列方法相比之前的最新技术表现出更好的性能,仅具有约百分之十的参数量和显著降低的计算复杂度。此外,G-SFormer 方法还对检测到的二维姿势不准确表现出卓越的鲁棒性。
Jul, 2024
本文介绍了一种利用过去帧信息运用自注意的 3D 人体姿态估计方法 ——Ego-STAN,通过引入 spatio-temporal Transformer 模型和 feature map tokens 实现对大规模训练的加速与计算效率的提高,并在实验中表现出卓越的性能。
Jun, 2022
本论文提供了一种新型的点块 Transformer 用于单级三维检测 (PVT-SSD), 其使用基于体素的稀疏卷积进行有效的特征编码,并从体素中以便宜的方式获取长距离上下文,同时从点中获取准确的位置并通过引入依赖于输入的查询初始化模块关联这两种不同的表示。进一步地,通过设计 Virtual Range Image 模块,该方法能够快速找到参考点的邻近点。该方法在几个自动驾驶基准测试中得到了验证,表明其有效性和高效性。
May, 2023
提出一种基于 Transformer 的模型,使用三种独立的 tokens 学习人体的 3D 关节旋转,身体形状和位置信息,进而估算 SMPL 参数,从而解决单目图像或视频中 3D 人体姿态和形状估计的困难问题,并具有较好性能。
Mar, 2023