基于 Transformer 的多视角三维重建

Mar, 2021

Multi-view 3D Reconstruction with Transformer

Dan Wang, Xinrui Cui, Xun Chen, Zhengxia Zou, Tianyang Shi...

TL;DR本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Abstract

deep cnn-based methods have so far achieved the state of the art results in multi-view 3d object reconstruction. Despite the considerable progress, the two core modules of these methods - multi-view feature extra

deep cnn-based methods multi-view 3d object reconstruction self-attention-based transformer models 3d volume transformer shapenet

发现论文，激发创造

使用 Transformer 进行体素级别视角选择和融合的体积式 3D 重建

通过学习条件于相机姿态和图像内容的视图融合功能，利用变压器提出端到端体积三维重建网络 VoRTX，其模型鲁棒性强，处理视角多样，能保留更多的细节信息，比现有最先进方法更出色。

Dec, 2021

LegoFormer：面块级别多视角三维重构的变形器

LegoFormer 是一种基于 transformer 模型的体素 3D 重建技术，通过使用自注意力层在所有计算阶段分享视角之间的信息，并将输出分解为低秩矩阵，从而实现对各个独立结构的预测和聚合，具有竞争性的性能和可解释性的优点，可用于现实数据的广义重建任务。

Jun, 2021

3D Former: 基于单目视觉的 3D SDF 变换器场景重建

本文提出了一种基于 SDF 转换网络、稀疏窗口注意力模块和上下文注意力网络的三维变换器网络，用于更好地聚合三维特征，提高单目场景重建的精度和完整性。实验结果表明，该网络在多个数据集上优于现有方法，能够提高网格的准确性和完整性。

Jan, 2023

3D-RETR: 使用 Transformer 进行端到端的单 / 多视角三维重构

本文提出了一种名为 3D-RETR 的方法，它可以使用 Transformer 执行端到端 3D 重建，实现从单个视角或多个视角的 3D 重建，并且在两个数据集上获得了最先进的性能表现。

Oct, 2021

Hyper-VolTran：基于超网络的快速且通用的一次性图像到 3D 物体结构转换

从单一视角解决图像到三维的问题是一个不适定问题，现有的神经重建方法依靠场景特定的优化限制其泛化能力。为了克服现有方法在泛化和一致性方面的局限性，我们引入了一种新颖的神经渲染技术。我们的方法通过几何编码体积和超网络，采用有符号距离函数作为表面表示，并从生成的多视图输入构建神经编码体积，在测试时根据输入图像调整 SDF 网络的权重，通过超网络以前馈方式实现对新场景的模型适应。为了减轻合成视图产生的伪影，我们提出了一个体素变换模块来改善图像特征的聚合，而不是单独处理每个视点。通过我们提出的 Hyper-VolTran 方法，我们避免了场景特定优化的瓶颈，并保持从多个视点生成的图像的一致性。我们的实验证明了我们提出的方法的优越性，具有一致的结果和快速生成。

Dec, 2023

Pix2Vox++：基于多尺度上下文感知的单张和多张图像的三维物体重建

提出了一种名为 Pix2Vox ++ 的新框架，用于从单视角或多视角图像恢复 3D 物体，使用编码器 - 解码器生成初始 3D 体积，并引入了多尺度上下文感知融合模块自适应地选择高质量的重建部分，以获得融合的 3D 体积，并进一步采用提炼器来选择性地探测出融合的 3D 体积中错误恢复的部分，最终得出鲁棒性和有效性均优于现有方法的结果。

Jun, 2020

TransformerFusion：使用 Transformer 的单目 RGB 场景重建

TransformerFusion 是一种基于 Transformer 的 3D 场景重建方法，通过 Transformer 网络处理输入的单眼 RGB 视频，将观察结果融合为代表场景的体积特征网格，最终解码为隐式的 3D 场景表示，实现精准的场景面貌恢复与重建。

Jul, 2021

Pix2Vox：基于单视图和多视图的上下文感知三维重建

提出了一种名为 Pix2Vox 的新框架，采用精心设计的编码器 - 解码器生成每个图像的粗略 3D 体积，再引入上下文感知融合模块自适应地选择不同粗略 3D 体积中每个部分（例如桌腿）的高质量重构，以获得融合的 3D 体积，并通过一个细化器进一步精化融合的 3D 体积以生成最终输出，该方法在 3D 重建方面的实验结果表明，Pix2Vox 不仅性能较其它现有算法更优，而且退推时间比 3D-R2N2 快 24 倍，而且该方法具有强大的通用性。

Jan, 2019

VolumeFusion：基于深度学习的三维场景重建深度融合技术

本文介绍了一种利用深度神经网络复制传统的 local depth maps calculation 和 global depth maps fusion 两步骤框架，以改善对 3D 场景重建精度和可解释性的计算机视觉任务方法。此外，作者还提出了一种称为 PosedConv 的旋转不变的 3D 卷积核，用于提高从非常不同视角获取的图像之间的匹配效率。作者在 ScanNet 数据集上进行了大量实验证明提出的方法在深度神经网络和传统计算机视觉技术中具有竞争力。

Aug, 2021

2L3: 将不完美生成的 2D 图像提升到精确的 3D

通过利用内在分解指导、瞬态 - 单模先验指导和视图增强来解决光照不一致、几何不对齐和视图稀疏等问题，我们提出了一种新的 3D 重构框架，该框架能够将多视图图像生成与神经网络基于体积有符号距离函数的单一图像到 3D 对象重建相结合。在各种数据集上评估我们的方法，并在定量和定性评估中展示了其卓越性能，从而在 3D 物体重建方面取得了显著的进展。与最新的最先进方法 Syncdreamer 相比，我们将 Chamfer 距离误差降低了约 36％，将 PSNR 提高了约 30％。

Jan, 2024