ViewFormer: 多视角三维形状理解的视图集合注意力
基于 3D 占据率、多视图特征聚合和动态场景的研究,我们提出了 ViewFormer,一个基于 Transformer 的视觉中心框架,具有高度的可扩展性和优越性能。
May, 2024
LegoFormer 是一种基于 transformer 模型的体素 3D 重建技术,通过使用自注意力层在所有计算阶段分享视角之间的信息,并将输出分解为低秩矩阵,从而实现对各个独立结构的预测和聚合,具有竞争性的性能和可解释性的优点,可用于现实数据的广义重建任务。
Jun, 2021
本文提出了一种名为 VERAM 的递归注意模型,能够主动选择一系列视角进行高精度的三维形状分类,通过三个关键增强策略解决了现有注意力模型中不平衡训练的问题,实现了状态下的最先进水平。
Aug, 2018
本文提出一种新的前馈神经模板 ——AttSets,以及一个专门的 FASet 训练算法,用于多视图的 3D 重建。AttSets 模块是置换不变的,计算效率高且易于实现,而 FASet 算法使基于 AttSets 的网络非常稳健,并且在多个公共数据集上确切地证明了 AttSets 与 FASet 算法的优越性。
Aug, 2018
本文研究了基于 Transformer 的目标检测器在多视角三维物体检测领域的局限性,并从鸟瞰图特征生成的角度提出了新的双视角注意力特征生成方法,将其应用于 BEVFormer 架构中,建立了一种新的检测器 VoxelFormer,实验结果表明其性能在 nuScenes 基准测试中显著优于 BEVFormer。
Apr, 2023
近期基于学习的多视点立体(MVS)方法中,引入了具有注意机制的基于 Transformer 模型的最新进展;然而,现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究,导致深度估计能力有限。本文提出了 MVSFormer++ 方法,通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分,将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习,并采用不同的注意机制对特征编码器和代价体积正则化进行处理,分别关注特征和空间聚合。此外,我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能,包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是,MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。
Jan, 2024
本文研究了从未观察到的物体实例的可变数量的 RGB 视图学习特定类别的 3D 形状重建问题,并提出了一种可以估计密集 3D 形状并在多个和不同数量的输入视图上聚合形状的方法。
Jul, 2019
本文提出了一种名为 3D Volume Transformer(VolT)的新框架,将多视角 3D 重建转化成了序列到序列的预测问题,并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上,我们的方法比其他基于 CNN 的方法使用更少的参数(减少了 70%),实现了新的多视角重建的最新精度。
Mar, 2021
最近,视觉变换器在各种计算机视觉任务中表现出色,包括体素三维重建。然而,视觉变换器的窗口不是多尺度的,并且窗口之间没有连接,这限制了体素三维重建的准确性。因此,我们提出了一种移位窗口注意力体素三维重建网络。据我们所知,这是第一个将移位窗口注意力应用于体素三维重建的工作。在 ShapeNet 上的实验结果验证了我们的方法在单视图重建方面达到了 SOTA 准确性。
Dec, 2023
ViewRefer 是一个用于 3D 视觉定位的多视角框架,可以在文本和 3D 两种模态下获取视觉知识,提出了一种可学习的多视角原型来记忆不同视角下的场景通用知识,同时还利用视角引导的注意力模块以及最终预测中的视角引导评分策略,实现了对三个基准测试的表现优于现有技术,并且超过了第二名的 + 2.8%、+1.2%和 + 0.73%。
Mar, 2023