TransPose: 基于 Transformer 的关键点定位
提出了一种基于 Transformer 网络的 2D 人体姿势估计方法,直接将图像转换为坐标进行回归预测,并利用自适应注意力机制来提高关键点坐标预测精度,实现了在 MS-COCO 数据集上超越同类方法的目标。
Jan, 2022
TransPose 是一个利用 Transformer 编码器和几何感知模块的 6D 姿态框架,用于提取和利用深度信息中的几何特征,以实现更准确的预测。通过统一采样点云,并借助设计的局部特征提取器和图卷积网络提取局部几何特征;采用 Transformer 进行全局信息交换,使每个局部特征包含全局信息;最后,在 Transformer 编码器中引入几何感知模块,为点云特征学习提供有效约束,并使全局信息交换与点云任务更加紧密结合。实验结果表明,通过 TransPose 的 6D 姿态估计管道在三个基准数据集上取得了有竞争力的结果。
Oct, 2023
我们提出了一种人体姿态估计框架,该框架以回归为基础,采用转换器有效地解决了姿态估计任务,使用序列预测问题的方法可以避免热图姿态估计带来的缺陷,并且通过关注机制可以适应地关注与目标关键点最相关的特征,从而大大克服了以前回归方法中存在的特征不对齐问题,而且我们的框架能够固有地利用关键点之间的结构关系,在 MS-COCO 和 MPII 数据集上的实验证明了我们的方法可以显著提高基于回归的姿态估计的最新技术水平,并且表现与最好的基于热图的姿态估计方法相当。
Mar, 2021
该研究提出了一种改进的基于 Transformer 的 6D 位姿估计方法 TransPose,它利用 RGB 图片作为输入,结合轻量级深度估计网络和变压器检测网络,并通过深度细化模块对位姿进行精度优化,在果树采摘应用方面取得了优于其他现有方法的效果。
Jul, 2023
本论文提出了一种个性化的深度神经网络技术,通过 fine-tuning 和使用 Transformer 模型,利用自我监督目标来适应每个测试样本,从而显著提高人体姿态估计模型的表现。
Jul, 2021
本文介绍了一种使用级联 Transformer 的基于回归的姿势识别方法,利用编码器 - 解码器结构实现了人体和关键点检测的回归,通过不同自注意力层中的关键点假设改进来展示了 Transformer 中的递归自注意力机制,并与竞争的回归方法进行比较得到了有竞争力的结果。
Apr, 2021
本研究提出一种基于 transformer 的算法,能够在视频中实现 3D 人体姿态估计,通过对空间和时间进行变换,对每一帧中人体关节关系进行建模,并在中心帧上输出准确的 3D 人体姿态,该算法在 Human3.6M 和 MPI-INF-3DHP 数据集上实现了最先进的成果。
Mar, 2021
该研究论文提出了一种可应用于多视角 3D 姿态估计中的变换器框架,该框架可以直接整合来自不同视角的信息,以改善 2D 预测器的性能。同时,研究人员还提出了一个名为 Epipolar field 的概念,它可以将 3D 位置信息编码到变换器模型中。实验证明,该方法更加高效,与其他融合方法相比有一致的改进。
Oct, 2021
本文提出了一种名为 “Keypoint Transformer” 的深度神经网络结构,该结构可以通过二维关键点自注意力机制提取手部三维位姿,实验结果表明该算法在 InterHand2.6M 数据集上性能优于当前所有算法,并可以扩展到双手操纵物体的三维位姿估计,同时作者还提供了超过 75,000 个手部交互的三维场景数据集。
Apr, 2021
基于 Transformer 的 YOLOPose 模型通过关键点回归和改进的方式实现多目标 6D 姿态估计,适用于实时应用,并达到与最先进方法相媲美的效果。
Jul, 2023