TransformerFusion：使用 Transformer 的单目 RGB 场景重建

Jul, 2021

TransformerFusion：使用 Transformer 的单目 RGB 场景重建

TransformerFusion: Monocular RGB Scene Reconstruction using Transformers

Aljaž Božič, Pablo Palafox, Justus Thies, Angela Dai, Matthias Nießner

TL;DRTransformerFusion 是一种基于 Transformer 的 3D 场景重建方法，通过 Transformer 网络处理输入的单眼 RGB 视频，将观察结果融合为代表场景的体积特征网格，最终解码为隐式的 3D 场景表示，实现精准的场景面貌恢复与重建。

Abstract

We introduce transformerfusion, a transformer-based 3D scene reconstruction approach. From an input monocular RGB video, the video frames are processed by a →

transformerfusion scene reconstruction transformer network volumetric feature grid 3d scene representation

发现论文，激发创造

使用 Transformer 进行体素级别视角选择和融合的体积式 3D 重建

通过学习条件于相机姿态和图像内容的视图融合功能，利用变压器提出端到端体积三维重建网络 VoRTX，其模型鲁棒性强，处理视角多样，能保留更多的细节信息，比现有最先进方法更出色。

Dec, 2021

基于 Transformer 的多视角三维重建

本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Mar, 2021

基于多层深度和极线变换的三维场景重建

此研究论文研究如何从单个 RGB 图像自动重建场景的完整 3D 模型，它采用一种新的 Epipolar Feature Transformer 技术来联合图像的多层深度表示和卷积神经网络特征以提高场景信息的准确性。

Feb, 2019

VisFusion：基于可见性的在线视频三维场景重建

提出了一种名为 VisFusion 的可见性感知在线 3D 场景重建方法，通过对单目视频进行姿态估计来恢复场景的体量特征，并提出了细节保留的局部稀疏化方法和分层预测 TSDF 的方法，实验结果表明我们的方法能够获得卓越的性能。

Apr, 2023

3D Former: 基于单目视觉的 3D SDF 变换器场景重建

本文提出了一种基于 SDF 转换网络、稀疏窗口注意力模块和上下文注意力网络的三维变换器网络，用于更好地聚合三维特征，提高单目场景重建的精度和完整性。实验结果表明，该网络在多个数据集上优于现有方法，能够提高网格的准确性和完整性。

Jan, 2023

无监督结构光变换

我们提出了一种基于鲁棒的 Transformer 的单目 SfM 方法，能够同时预测单目像素级深度、自车的平移和旋转、相机的焦距和主点，并且通过在 KITTI 和 DDAD 数据集上的实验，展示了如何适应不同的视觉 Transformer 并将其与当代基于 CNN 的方法进行比较。我们的研究表明，虽然基于 Transformer 的架构在运行时间效率上较低，但在面对自然的破坏、非目标攻击和有目标攻击时具有可比性的性能，并且更加稳健。

Dec, 2023

VolumeFusion：基于深度学习的三维场景重建深度融合技术

本文介绍了一种利用深度神经网络复制传统的 local depth maps calculation 和 global depth maps fusion 两步骤框架，以改善对 3D 场景重建精度和可解释性的计算机视觉任务方法。此外，作者还提出了一种称为 PosedConv 的旋转不变的 3D 卷积核，用于提高从非常不同视角获取的图像之间的匹配效率。作者在 ScanNet 数据集上进行了大量实验证明提出的方法在深度神经网络和传统计算机视觉技术中具有竞争力。

Aug, 2021

基于 Hybrid Transformer 的特征融合用于自监督单目深度估计

本文介绍了一种新的深度估计模型，使用 Vision Transformers 来提取图像中的全局上下文信息，实现对深度估算的改进，最终该模型在标准测试数据集上达到了最优性能。

Nov, 2022

Atlas: 从姿态图像实现端到端三维场景重建

提出了一种端到端的三维重建方法，通过直接回归截断带符号距离函数（TSDF）从一组姿势 RGB 图像中实现。使用 2D CNN 独立地提取每个图像的特征，然后通过相机内参和外参进行反投影和累积到体素体积中。此外，通过该方法获取到了三维模型的语义分割。该方法在 Scannet 数据集上得到了评估，既在量化指标上，也在视觉效果上都超过了国际领先的基准结果。

Mar, 2020

基于 Transformer 模型的单目视觉里程计：一种视频理解方法

利用基于自注意力机制的 TSformer-VO 模型，将单目视觉里程计作为视频理解任务，从视频片段中提取特征并通过端到端的方式估计摄像机的 6-DoF 位姿，取得了与基于几何和深度学习的方法相比具有竞争力的业内领先表现。

May, 2023