ViewFormer: 多视角三维形状理解的视图集合注意力

Apr, 2023

ViewFormer: 多视角三维形状理解的视图集合注意力

ViewFormer: View Set Attention for Multi-view 3D Shape Understanding

Hongyu Sun, Yongcai Wang, Peng Wang, Xudong Cai, Deying Li

TL;DR本研究为多视角三维形状识别和检索提出了 ViewFormer 方法，该方法通过提出 “视角集” 视角，采用一种自适应的注意力模型来捕捉视图集中的元素之间的成对和高阶相关性，并将学习到的多视角相关性聚合到一个富有表达力的视角集描述符中进行识别和检索。实验证明，该方法在不同任务和数据集上具有惊人的能力。特别是在 ModelNet40 数据集上，ViewFormer 首次达到 98.8％的识别准确率，超过了之前最好的方法 1.1％的表现。

Abstract

This paper presents ViewFormer, a simple yet effective model for multi-view 3d shape recognition and retrieval. We systematically investigate the existing methods for aggregating →

multi-view 3d shape recognition adaptive attention model view set descriptor modelnet40

发现论文，激发创造

ViewFormer：基于视图引导的 Transformer 模型探索多视角 3D 占位感知的时空建模

基于 3D 占据率、多视图特征聚合和动态场景的研究，我们提出了 ViewFormer，一个基于 Transformer 的视觉中心框架，具有高度的可扩展性和优越性能。

May, 2024

LegoFormer：面块级别多视角三维重构的变形器

LegoFormer 是一种基于 transformer 模型的体素 3D 重建技术，通过使用自注意力层在所有计算阶段分享视角之间的信息，并将输出分解为低秩矩阵，从而实现对各个独立结构的预测和聚合，具有竞争性的性能和可解释性的优点，可用于现实数据的广义重建任务。

Jun, 2021

VERAM：视图增强的循环注意力模型用于 3D 形状分类

本文提出了一种名为 VERAM 的递归注意模型，能够主动选择一系列视角进行高精度的三维形状分类，通过三个关键增强策略解决了现有注意力模型中不平衡训练的问题，实现了状态下的最先进水平。

Aug, 2018

深层特征集的强鲁棒性注意聚合在多视角三维重建中

本文提出一种新的前馈神经模板 ——AttSets，以及一个专门的 FASet 训练算法，用于多视图的 3D 重建。AttSets 模块是置换不变的，计算效率高且易于实现，而 FASet 算法使基于 AttSets 的网络非常稳健，并且在多个公共数据集上确切地证明了 AttSets 与 FASet 算法的优越性。

Aug, 2018

VoxelFormer：基于双视图注意力的鸟瞰特征生成，用于多视角 3D 物体检测

本文研究了基于 Transformer 的目标检测器在多视角三维物体检测领域的局限性，并从鸟瞰图特征生成的角度提出了新的双视角注意力特征生成方法，将其应用于 BEVFormer 架构中，建立了一种新的检测器 VoxelFormer，实验结果表明其性能在 nuScenes 基准测试中显著优于 BEVFormer。

Apr, 2023

MVSFormer++：揭示多视角立体匹配中 Transformer 细节中的问题

近期基于学习的多视点立体（MVS）方法中，引入了具有注意机制的基于 Transformer 模型的最新进展；然而，现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究，导致深度估计能力有限。本文提出了 MVSFormer++ 方法，通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分，将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习，并采用不同的注意机制对特征编码器和代价体积正则化进行处理，分别关注特征和空间聚合。此外，我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能，包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是，MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。

Jan, 2024

用于学习类别特定形状重建的多视图聚合

本文研究了从未观察到的物体实例的可变数量的 RGB 视图学习特定类别的 3D 形状重建问题，并提出了一种可以估计密集 3D 形状并在多个和不同数量的输入视图上聚合形状的方法。

Jul, 2019

基于 Transformer 的多视角三维重建

本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Mar, 2021

R3D-SWIN：应用移位窗口注意力进行单视角三维重建

最近，视觉变换器在各种计算机视觉任务中表现出色，包括体素三维重建。然而，视觉变换器的窗口不是多尺度的，并且窗口之间没有连接，这限制了体素三维重建的准确性。因此，我们提出了一种移位窗口注意力体素三维重建网络。据我们所知，这是第一个将移位窗口注意力应用于体素三维重建的工作。在 ShapeNet 上的实验结果验证了我们的方法在单视图重建方面达到了 SOTA 准确性。

Dec, 2023

利用 GPT 和原型指导的多视角知识获取用于 3D 视觉定位

ViewRefer 是一个用于 3D 视觉定位的多视角框架，可以在文本和 3D 两种模态下获取视觉知识，提出了一种可学习的多视角原型来记忆不同视角下的场景通用知识，同时还利用视角引导的注意力模块以及最终预测中的视角引导评分策略，实现了对三个基准测试的表现优于现有技术，并且超过了第二名的 + 2.8％、+1.2％和 + 0.73％。

Mar, 2023