使用 8 点算法作为相对位姿预测的归纳偏差 (ViT)
本文通过一个名为 ViTPose 的基础模型展示了纯视觉 Transformer 在姿态估计任务中的潜力,该模型结构简单、可扩展、训练方式灵活,并在多关键点检测中取得了优异的性能,其中大模型最高精度达到当前最佳水平。
Apr, 2022
我们的研究将 6D 姿态估计问题转化为直接的回归任务,利用 Vision Transformers 的能力进行探索,通过对分类标记的定制使用来进行姿态估计。我们还引入了一种简单的方法来确定姿态的置信度,这可以很容易地集成到大多数 6D 姿态估计框架中。我们的方法 PViT-6D 在实现简单和端到端可学习的同时,表现优于当前最先进方法,在 Linemod-Occlusion 数据集上提高 0.3% ADD (-S),在 YCB-V 数据集上提高 2.7% ADD (-S)。此外,我们的方法提高了模型的可解释性和推理性能的可靠性。
Nov, 2023
PI-ViT is a Pose Induced Video Transformer that augments RGB representations learned by video transformers with 2D and 3D pose information, achieving state-of-the-art performance for Activities of Daily Living (ADL) recognition on real-world and large-scale RGB-D datasets without additional computational overhead at inference.
Nov, 2023
这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT),通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构,以减少模型的层数和参数数量,并促进 ViT 模型在多个节点上的协同训练和推理,从而实现比现有方案高多达 10% 的 top-1 准确率,证明了其在保持归纳偏差方面的优越性。
Apr, 2024
本文提出了一种利用先验卷积 IB(intrinsic bias)的 Vision transformer 架构(ViTAE)来解决长程依赖建模中存在的局限性,并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。
Feb, 2022
相机位姿估计的方法可以通过找到对应关系和解决基础矩阵的方式在大多数情况下提供高精度,而使用神经网络直接预测姿态的方法对于有限重叠的情况更加鲁棒,并能够推断出绝对平移尺度,但精度较低。我们展示了如何结合这两种方法的优点;我们的方法能够同时提供精确和稳健的结果,并准确推断出平移尺度。我们模型的核心是一个 Transformer,它通过学习平衡已解决和学习的姿态估计,并提供一个先验信息来指导求解器。全面的分析支持了我们的设计选择,并证明了我们的方法能够灵活适应各种特征提取器和对应估计器,在 Matterport3D、InteriorNet、StreetLearn 和 Map-free Relocalization 上展现了最先进的 6 自由度姿态估计性能。
Mar, 2024
本文提出了 6D-ViT,这是一种基于变压器的实例表示学习网络,可用于对 RGB-D 图像进行高准确度的类别级对象姿态估计。通过使用来自 RGB 图像、点云和形状先验的复杂和强大的实例表示进行实验演示,该框架可显著提高现有方法的性能
Oct, 2021
在本文中,我们提出了一种基于旋转 - 平移解耦估计的新型三视图位姿求解器,该方法通过考虑观测的不确定性并使用 Levenberg-Marquardt(LM)算法高效求解旋转估计,以及通过精心设计的稳健线性平移约束,来准确估计旋转和平移,实验结果表明该方法相较于基于三基数张量的经典方法和最先进的双视图算法,在室内外环境中提高了旋转和平移的准确性。
Mar, 2024
在两视相对估计中,本文介绍了一种基于最近的仅位姿成像几何来通过适当的重新加权过滤异常值的线性相对姿态估计算法,该算法能够处理平面退化场景,在存在高比例异常值的情况下提高鲁棒性和准确性,通过将线性全局平移约束嵌入迭代重新加权最小二乘 (IRLS) 和 RANSAC 的策略中来实现鲁棒异常值去除,Strecha 数据集的仿真和实际测试表明,该算法在面对高达 80% 的异常值时实现了 2 到 10 倍的相对旋转准确性改进。
Jan, 2024