多视图三维物体识别中的主导集聚类和池化
综述了基于多视图三维物体识别方法在三维分类和检索任务方面的最新进展,聚焦于基于深度学习和基于 Transformer 技术的方法,包括常用的三维数据集、相机配置和视角数量、视角选择策略、预训练卷积神经网络架构、融合策略以及在三维分类和检索任务上的识别性能,同时考察了多视图分类在计算机视觉应用中的各种情况,并凸显了关键发现和未来发展方向。
Apr, 2024
本文介绍了一种名为 View N-gram Network (VNN) 的高效框架,通过将视图序列划分为一组视觉 n-gram,VNN 可以捕获多个视图间的空间信息,从而帮助学习每个 3D 对象的判别性全局嵌入。在诸如 ModelNet10、ModelNet40 和 ShapeNetCore55 等 3D 形状检索基准测试中,我们的方法表现出优越性。
Aug, 2019
本研究论述了通过 CNN 架构识别单个和多个渲染图像视角的 2D 视图图集能够在 3D 物体识别方面表现出更好的性能,提出并证明 CNN 架构结合多个视角信息可提供更好的识别性能,同样适用于人手绘图的物体识别。
May, 2015
本文提出一种新的前馈神经模板 ——AttSets,以及一个专门的 FASet 训练算法,用于多视图的 3D 重建。AttSets 模块是置换不变的,计算效率高且易于实现,而 FASet 算法使基于 AttSets 的网络非常稳健,并且在多个公共数据集上确切地证明了 AttSets 与 FASet 算法的优越性。
Aug, 2018
提出了一种基于多视图轴自注意力和局部 ROI 自注意力的多路径多表示 3D 物体检测方法,通过稀疏浮动查询和密集 BEV 查询的多重表示进一步提高了性能,对于自动驾驶系统具有重要意义。
Feb, 2023
本文提出了一种基于群卷积的多视图融合方法,实现对所有视图的联合推理,并通过对旋转群的离散子群进行卷积来维持等变性,从而在多个大规模的 3D 形状检索任务中取得了新的最高水平,并且在全景场景分类方面也有额外的应用。
Apr, 2019
本文提出了一种名为 VERAM 的递归注意模型,能够主动选择一系列视角进行高精度的三维形状分类,通过三个关键增强策略解决了现有注意力模型中不平衡训练的问题,实现了状态下的最先进水平。
Aug, 2018
本文比较了不同的物体类别视点估计方法,并提出一种新的联合训练方法,并强调了分类方法的优越性、深度架构和扩展训练数据的好处,并证明了即使使用 ImageNet 训练数据,合成数据也是有益的。结合所有这些因素,我们在 Pascal3D + 数据集上的结果比先前的最新成果提高了约 5%的 mAVP,特别是在 24 个视点分类任务上,将结果从 31.1%提高到 36.1%的 mAVP。
Sep, 2016
本文提出了一种基于多层体素网格的端到端多级学习方法来解决现有 3D 目标识别中结构化和非结构化数据表示的缺陷,结果表明该方法在节约内存的同时能够实现与密集体素表示相当的目标识别性能。
May, 2018
本文研究了从未观察到的物体实例的可变数量的 RGB 视图学习特定类别的 3D 形状重建问题,并提出了一种可以估计密集 3D 形状并在多个和不同数量的输入视图上聚合形状的方法。
Jul, 2019