教授 Transformer 多视图几何的轻触方法

Nov, 2022

教授 Transformer 多视图几何的轻触方法

A Light Touch Approach to Teaching Transformers Multi-view Geometry

Yash Bhalgat, Joao F. Henriques, Andrew Zisserman

TL;DR本论文提出了使用极线来引导转换器的跨关注映射，以指导 Transformer 学习多视角几何，并在需要时使其突破自由。实验证明，我们的方法在对象检索方面优于现有技术，而无需在测试时提供姿态信息。

Abstract

transformers are powerful visual learners, in large part due to their conspicuous lack of manually-specified priors. This flexibility can be problematic in tasks that involve multiple-view geometry, due to the ne

transformers multiple-view geometry epipolar lines object retrieval pose information

发现论文，激发创造

无几何先验的视图合成：Transformer 技术

本文研究了利用卷积神经网络需要显式的 3D 偏置模型来模拟立体几何变换，而相比之下，使用基于变换器的模型可以在不需要手动设计 3D 偏置的情况下，通过全局注意机制和概率形式隐式地学习源视图和目标视图之间的长距离 3D 对应关系来生成全新视图，克服了先前方法面对相对较小的视角变化的限制。实验表明，不需要几何先验知识时，变换器仍能隐式地学习 3D 之间的关系，并且在视觉质量方面优于现有技术。

Apr, 2021

GTA：一种面向几何的多视角 Transformer 的注意机制

通过提出一种几何感知注意机制 (Geometric Transform Attention, GTA) 来对几何结构进行编码，改进了基于 Transformer 的多视角合成模型的学习效率和性能，无需额外学习参数且计算开销较小。

Oct, 2023

基于多层深度和极线变换的三维场景重建

此研究论文研究如何从单个 RGB 图像自动重建场景的完整 3D 模型，它采用一种新的 Epipolar Feature Transformer 技术来联合图像的多层深度表示和卷积神经网络特征以提高场景信息的准确性。

Feb, 2019

以 Transformer 桥接自我中心和第三人称视角，用于机器人操纵的深入研究

本研究提出了一种基于视觉反馈的精细操作任务解决方案，结合第三人称相机和机器人手腕上的自我中心相机的可视化反馈，使用 Transformers 跨视图关注机制来有效融合两个视图的信息，并将其作为强化学习策略的输入。实验结果表明，该方法相对于基线（single-view, multi-view）有明显的学习优势，并能够成功地转移到具有不稳定摄像头、无状态信息和高任务变异度的实际机器人操作任务中。

Jan, 2022

轻场景神经渲染

本文提出了一种基于四维光场表示的双阶段变压器模型，旨在弥合几何重建和经典光场渲染之间的差距，通过强制约束几何约束，使得场景几何隐含在稀疏的视角学习中，并在多个前向和 360 度数据集上超越了最先进技术，尤其是在视角变化剧烈的情况下。

Dec, 2021

多视角几何变换器用于 3D 人体姿态估计

我们的研究旨在提高 Transformer 的三维推理能力，在多视图三维人体姿势估计中。通过引入一种新的混合模型，MVGFormer，该模型采用一系列的几何和外观模块，以迭代方式组织。其中，几何模块通过几何方式处理依赖于视角的三维任务，显著改善了模型的泛化能力。外观模块是可学习的，并且专门用于从图像信号中端到端地估计二维姿势，即使在出现遮挡时也能获得准确的估计结果，从而实现了准确性和适用于新的摄像机和几何形状的模型。经过领域内外的评估，我们的模型始终优于最先进的方法，特别是在领域外的情况下有明显的优势。我们将发布代码和模型：this URL

Nov, 2023

从宽基线立体对学习生成新视角

介绍了一种用于单个广角立体图像对的新视角合成的方法，包括 3D 场景重构和外观变化的先验模型，提出了一种多视角变换编码器、图像上的极线采样方案和轻量级交叉注意力渲染器，通过大规模实际数据集的训练，证明了模型学习到了强大的多视角几何先验，大大缩短了渲染时间，并在两个实际数据集上得到了显著的优越性能。

Apr, 2023

TransFusion：基于 Transformer 的跨视角三维人体姿态融合估计

该研究论文提出了一种可应用于多视角 3D 姿态估计中的变换器框架，该框架可以直接整合来自不同视角的信息，以改善 2D 预测器的性能。同时，研究人员还提出了一个名为 Epipolar field 的概念，它可以将 3D 位置信息编码到变换器模型中。实验证明，该方法更加高效，与其他融合方法相比有一致的改进。

Oct, 2021

交叉视图 Transformer 用于实时地图视角语义分割

本文提出了一种名为 Cross-View Transformers 的注意力机制模型，能够在不需要显式几何建模的情况下，从多个相机的视角中学习到语义分割的图像表示，并进行了实时性能验证。

May, 2022

基于 Transformer 模型的单目视觉里程计：一种视频理解方法

利用基于自注意力机制的 TSformer-VO 模型，将单目视觉里程计作为视频理解任务，从视频片段中提取特征并通过端到端的方式估计摄像机的 6-DoF 位姿，取得了与基于几何和深度学习的方法相比具有竞争力的业内领先表现。

May, 2023