无监督结构光变换

MMDec, 2023

Transformers in Unsupervised Structure-from-Motion

Hemang Chawla, Arnav Varma, Elahe Arani, Bahram Zonooz

TL;DR我们提出了一种基于鲁棒的 Transformer 的单目 SfM 方法，能够同时预测单目像素级深度、自车的平移和旋转、相机的焦距和主点，并且通过在 KITTI 和 DDAD 数据集上的实验，展示了如何适应不同的视觉 Transformer 并将其与当代基于 CNN 的方法进行比较。我们的研究表明，虽然基于 Transformer 的架构在运行时间效率上较低，但在面对自然的破坏、非目标攻击和有目标攻击时具有可比性的性能，并且更加稳健。

Abstract

transformers have revolutionized deep learning based computer vision with improved performance as well as robustness to natural corruptions and adversarial attacks. →

transformers computer vision 3d scene understanding sfm vision transformers

发现论文，激发创造

自监督单目深度估计中的 Transformer 模型（不考虑相机内参）

研究在自动驾驶和高级驾驶辅助系统下，使用视觉转换器作为新的方法来进行单目深度估计，在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能，同时具有更强的鲁棒性和可扩展性。

Feb, 2022

基于 Transformer 模型的单目视觉里程计：一种视频理解方法

利用基于自注意力机制的 TSformer-VO 模型，将单目视觉里程计作为视频理解任务，从视频片段中提取特征并通过端到端的方式估计摄像机的 6-DoF 位姿，取得了与基于几何和深度学习的方法相比具有竞争力的业内领先表现。

May, 2023

基于 Hybrid Transformer 的特征融合用于自监督单目深度估计

本文介绍了一种新的深度估计模型，使用 Vision Transformers 来提取图像中的全局上下文信息，实现对深度估算的改进，最终该模型在标准测试数据集上达到了最优性能。

Nov, 2022

TransformerFusion：使用 Transformer 的单目 RGB 场景重建

TransformerFusion 是一种基于 Transformer 的 3D 场景重建方法，通过 Transformer 网络处理输入的单眼 RGB 视频，将观察结果融合为代表场景的体积特征网格，最终解码为隐式的 3D 场景表示，实现精准的场景面貌恢复与重建。

Jul, 2021

无需传感器的深度预测：利用结构从单目视频中进行无监督学习

该研究提出了一种基于几何结构的无监督视觉深度学习方法，通过建模场景和物体，学习单目视频的摄像机姿态和物体运动，并引入在线细化方法，实现对未知域的实时适应。该方法优于现有技术，包括处理运动的技术，并可用于机器人导航领域的室内和室外场景。

Nov, 2018

基于 Transformer 的多帧自监督深度学习

本研究提出了使用特征匹配和转换器架构进行单目自监督深度估计的新方法，通过使用深度离散化的极线采样选择匹配候选项，并通过一系列的自注意力和交叉注意力层来改进预测。该方法可以从视频中单独训练，从而建立自监督单目深度估计的最新技术，并具有一定的泛化性能.

Apr, 2022

深度二视图结构运动再探讨

本研究使用光流、姿态估计和深度估计网络，实现了相对摄像机位姿和深度图的两视角结构运动重建，表现明显优于现有的同类方法。

Apr, 2021

基于视觉几何的深度结构运动

我们提出了一种新的深度管道 VGGSfM，其中每个组件都是完全可微的，因此可以进行端到端的训练，通过引入新的机制和简化，我们在三个流行的数据集 CO3D，IMC Phototourism 和 ETH3D 上实现了最先进的性能。

Dec, 2023

非受限环境下的多人跟踪和再识别的 Transformer 网络

提出了一个综合的多目标跟踪方法 STMMOT，该方法结合了目标检测和身份链接，能够在长时间内维持目标身份链接，并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态，消除了后处理的需求。

Dec, 2023

使用视觉 Transformer 进行高效的 3D 物体重建

使用视觉 transformer 替代卷积在现有的高效，高性能的 3D 目标重建技术中，预测三维结构并取得类似或优于基线方法的准确度，表明视觉 transformer 在三维目标重建任务中有着巨大的潜力。

Feb, 2023