使用 Transformer 进行体素级别视角选择和融合的体积式 3D 重建
本文提出了一种名为 3D Volume Transformer(VolT)的新框架,将多视角 3D 重建转化成了序列到序列的预测问题,并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上,我们的方法比其他基于 CNN 的方法使用更少的参数(减少了 70%),实现了新的多视角重建的最新精度。
Mar, 2021
TransformerFusion 是一种基于 Transformer 的 3D 场景重建方法,通过 Transformer 网络处理输入的单眼 RGB 视频,将观察结果融合为代表场景的体积特征网格,最终解码为隐式的 3D 场景表示,实现精准的场景面貌恢复与重建。
Jul, 2021
从单一视角解决图像到三维的问题是一个不适定问题,现有的神经重建方法依靠场景特定的优化限制其泛化能力。为了克服现有方法在泛化和一致性方面的局限性,我们引入了一种新颖的神经渲染技术。我们的方法通过几何编码体积和超网络,采用有符号距离函数作为表面表示,并从生成的多视图输入构建神经编码体积,在测试时根据输入图像调整 SDF 网络的权重,通过超网络以前馈方式实现对新场景的模型适应。为了减轻合成视图产生的伪影,我们提出了一个体素变换模块来改善图像特征的聚合,而不是单独处理每个视点。通过我们提出的 Hyper-VolTran 方法,我们避免了场景特定优化的瓶颈,并保持从多个视点生成的图像的一致性。我们的实验证明了我们提出的方法的优越性,具有一致的结果和快速生成。
Dec, 2023
本文提出了一种名为 3D-RETR 的方法,它可以使用 Transformer 执行端到端 3D 重建,实现从单个视角或多个视角的 3D 重建,并且在两个数据集上获得了最先进的性能表现。
Oct, 2021
提出了一种名为 VisFusion 的可见性感知在线 3D 场景重建方法,通过对单目视频进行姿态估计来恢复场景的体量特征,并提出了细节保留的局部稀疏化方法和分层预测 TSDF 的方法,实验结果表明我们的方法能够获得卓越的性能。
Apr, 2023
LegoFormer 是一种基于 transformer 模型的体素 3D 重建技术,通过使用自注意力层在所有计算阶段分享视角之间的信息,并将输出分解为低秩矩阵,从而实现对各个独立结构的预测和聚合,具有竞争性的性能和可解释性的优点,可用于现实数据的广义重建任务。
Jun, 2021
本研究提出 RVT,一种基于多视角变形器的三维物体操作方法,在模拟和实际环境中均表现出色,相对于现有方法,其训练速度快 36 倍,推理速度快 2.3 倍,并仅需每项任务约 10 次演示即可达到良好的效果。
Jun, 2023
本文介绍了一种利用深度神经网络复制传统的 local depth maps calculation 和 global depth maps fusion 两步骤框架,以改善对 3D 场景重建精度和可解释性的计算机视觉任务方法。此外,作者还提出了一种称为 PosedConv 的旋转不变的 3D 卷积核,用于提高从非常不同视角获取的图像之间的匹配效率。作者在 ScanNet 数据集上进行了大量实验证明提出的方法在深度神经网络和传统计算机视觉技术中具有竞争力。
Aug, 2021
本文提出了一种基于 SDF 转换网络、稀疏窗口注意力模块和上下文注意力网络的三维变换器网络,用于更好地聚合三维特征,提高单目场景重建的精度和完整性。实验结果表明,该网络在多个数据集上优于现有方法,能够提高网格的准确性和完整性。
Jan, 2023
本文提出了一种新的框架,利用 Vision Transformer(ViT)和联合图像 - 文本表示模型 CLIP 的中间潜空间,用于单视图重建,通过学习从 ViT 和 CLIP 提取的深度特征与基础 3D 生成模型的潜在空间之间的映射来揭示 3D 形状的重建,且能够实现视角不受限和大遮挡情况下的 3D 形状重建。
Dec, 2022