使用 8 点算法作为相对位姿预测的归纳偏差 (ViT)

Aug, 2022

使用 8 点算法作为相对位姿预测的归纳偏差 (ViT)

The 8-Point Algorithm as an Inductive Bias for Relative Pose Prediction by ViTs

PDF

Chris Rockwell, Justin Johnson, David F. Fouhey

TL;DR本文介绍了一种基于 Vision Transformer 的简单方法，可以直接估计两个图像之间的相对位姿，能够在多种场景下与先进的复杂方法相媲美，在有限的数据情况下有很强的性能优势。

Abstract

We present a simple baseline for directly estimating the relative pose (rotation and translation, including →

relative pose rotation translation scale vision transformer

发现论文，激发创造

ViTPose: 用于人体姿势估计的简单视觉 Transformer 基线模型

本文通过一个名为 ViTPose 的基础模型展示了纯视觉 Transformer 在姿态估计任务中的潜力，该模型结构简单、可扩展、训练方式灵活，并在多关键点检测中取得了优异的性能，其中大模型最高精度达到当前最佳水平。

Apr, 2022

PViT-6D：使用置信水平预测和姿态令牌超频视觉变换器的 6D 位姿估计

我们的研究将 6D 姿态估计问题转化为直接的回归任务，利用 Vision Transformers 的能力进行探索，通过对分类标记的定制使用来进行姿态估计。我们还引入了一种简单的方法来确定姿态的置信度，这可以很容易地集成到大多数 6D 姿态估计框架中。我们的方法 PViT-6D 在实现简单和端到端可学习的同时，表现优于当前最先进方法，在 Linemod-Occlusion 数据集上提高 0.3% ADD (-S)，在 YCB-V 数据集上提高 2.7% ADD (-S)。此外，我们的方法提高了模型的可解释性和推理性能的可靠性。

Nov, 2023

仅加 $π$！用于理解日常生活活动的姿势引发视频 Transformer

PI-ViT is a Pose Induced Video Transformer that augments RGB representations learned by video transformers with 2D and 3D pose information, achieving state-of-the-art performance for Activities of Daily Living (ADL) recognition on real-world and large-scale RGB-D datasets without additional computational overhead at inference.

Nov, 2023

HSViT：水平可扩展的视觉 Transformer

这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，以减少模型的层数和参数数量，并促进 ViT 模型在多个节点上的协同训练和推理，从而实现比现有方案高多达 10% 的 top-1 准确率，证明了其在保持归纳偏差方面的优越性。

Apr, 2024

通过探索归纳偏见推动图像识别及更广泛领域的视觉 Transformer 进化 (ViTAEv2)

本文提出了一种利用先验卷积 IB（intrinsic bias）的 Vision transformer 架构（ViTAE）来解决长程依赖建模中存在的局限性，并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。

Feb, 2022

FAR：灵活、准确和稳健的 6DoF 相机相对姿态估计

相机位姿估计的方法可以通过找到对应关系和解决基础矩阵的方式在大多数情况下提供高精度，而使用神经网络直接预测姿态的方法对于有限重叠的情况更加鲁棒，并能够推断出绝对平移尺度，但精度较低。我们展示了如何结合这两种方法的优点；我们的方法能够同时提供精确和稳健的结果，并准确推断出平移尺度。我们模型的核心是一个 Transformer，它通过学习平衡已解决和学习的姿态估计，并提供一个先验信息来指导求解器。全面的分析支持了我们的设计选择，并证明了我们的方法能够灵活适应各种特征提取器和对应估计器，在 Matterport3D、InteriorNet、StreetLearn 和 Map-free Relocalization 上展现了最先进的 6 自由度姿态估计性能。

Mar, 2024

6D-ViT: 基于变换器的实例表示学习，用于分类级别的 6D 目标姿态估计

本文提出了 6D-ViT，这是一种基于变压器的实例表示学习网络，可用于对 RGB-D 图像进行高准确度的类别级对象姿态估计。通过使用来自 RGB 图像、点云和形状先验的复杂和强大的实例表示进行实验演示，该框架可显著提高现有方法的性能

Oct, 2021

单个仿射对应关系的相对位姿最小解

利用特征点之间的仿射变换来解决相对位姿估计问题，提出了四种方法并证明了它们的有效性，可以在 RANSAC 循环中用于异常值检测和初始运动估计。

Dec, 2019

通过解耦旋转和平移实现基于三点线图像的准确实时相对位姿估计

在本文中，我们提出了一种基于旋转 - 平移解耦估计的新型三视图位姿求解器，该方法通过考虑观测的不确定性并使用 Levenberg-Marquardt（LM）算法高效求解旋转估计，以及通过精心设计的稳健线性平移约束，来准确估计旋转和平移，实验结果表明该方法相较于基于三基数张量的经典方法和最先进的双视图算法，在室内外环境中提高了旋转和平移的准确性。

Mar, 2024

基于姿态纯图像几何的线性相对姿态估计

在两视相对估计中，本文介绍了一种基于最近的仅位姿成像几何来通过适当的重新加权过滤异常值的线性相对姿态估计算法，该算法能够处理平面退化场景，在存在高比例异常值的情况下提高鲁棒性和准确性，通过将线性全局平移约束嵌入迭代重新加权最小二乘 (IRLS) 和 RANSAC 的策略中来实现鲁棒异常值去除，Strecha 数据集的仿真和实际测试表明，该算法在面对高达 80% 的异常值时实现了 2 到 10 倍的相对旋转准确性改进。

Jan, 2024