多视点 PointNet 用于 3D 场景理解

ICCVSep, 2019

Multi-view PointNet for 3D Scene Understanding

Maximilian Jaritz, Jiayuan Gu, Hao Su

TL;DR本文介绍了 MVPNet 模型，该模型使用视图选择和 2D-3D 特征聚合模块将 2D 多视图图像特征汇集到 3D 点云中，并使用基于点的网络将 3D 规范空间中的特征融合以预测 3D 语义标签。该方法在 3D 语义分割任务上，优于以前的点云方法，并且训练速度比稀疏体素方法的大型网络快得多。

Abstract

fusion of 2d images and 3d point clouds is important because information from dense images can enhance sparse point clouds. However,

fusion 2d images 3d point clouds mvpnet semantic segmentation

发现论文，激发创造

多视图视觉提示融合网络：2D 预训练模型能否增强 3D 点云数据稀缺学习？

本研究提出了一个新的多视图视觉提示融合网络 (MvNet)，通过利用现成的 2D 预训练模型实现 few-shot 3D 点云分类，实现了 3D few-shot 点云图像分类的最新性能。

Apr, 2023

MVP-Net: 大规模点云的多视点语义分割

本文介绍了一种名为 MVP-Net 的神经网络结构，它可以高效地对大规模室外点云进行语义分割，而无需 KNN 算法，并且通过实验验证，MVP-Net 的速度是最有效的点云语义分割方法 RandLA-Net 的 11 倍，并在大规模基准数据集 SemanticKITTI 上达到相同的准确性。

Jan, 2022

PVNet: 一种基于点云和多视图的联合卷积网络用于三维形状识别

本文介绍了一个新的 3D 形状识别框架：Point-View Network（PVNet），该框架整合了点云和多视角数据，并利用深度学习和嵌入式注意融合方案提高了 3D 形状的准确识别。

Aug, 2018

MVPNet：用于从单张图像重建三维物体的多视图点回归网络

该论文提出了一种基于点云的物体表面重建方法，使用编码器 - 解码器网络通过单张图片生成多种视角下的点云，并且使用几何损失函数提高表面拟合准确性。

Nov, 2018

大规模三维语义分割中的野外多视角聚合学习

本文提出了一种端到端可训练的多视角聚合模型，利用 3D 点的视角优势，从任意位置拍摄的图像中合并特征，将标准 2D 和 3D 网络相结合，不需要着色、上网格或真实深度图，我们在 S3DIS 和 KITTI-360 数据集上取得了新的最佳效果。

Apr, 2022

VPFNet: 采用虚拟基于点的 LiDAR 和立体数据融合来提高三维物体检测

VPFNet 是一种新的网络架构，通过虚拟点 cleverly aligns and aggregates the point cloud and image data 来解决 3D 点云和图像数据之间的不匹配问题，同时利用数据增强技术来提高 3D 目标检测的性能。在 KITTI 数据集上的实验中，在保证计算效率的情况下，VPFNet 取得了很好的性能表现。

Nov, 2021

ImVoteNet: 通过图像投票提升点云中的 3D 物体检测

本文提出了一种新的三维检测方法 ImVoteNet，通过将二维图像和三维点云进行融合来实现，验证结果表明，此方法在 SUN RGB-D 数据集上优于先前方法，主要应用于 RGB-D 场景。

Jan, 2020

用于自动驾驶的多视角三维物体检测网络

该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks（MV3D）框架，该框架采用多传感器融合技术，将 LIDAR 点云和 RGB 图像作为输入，并预测有方向的 3D 界限框。实验表明，该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25％和 30％，在 2D 检测中也表现出显著的技术优势。

Nov, 2016

基于点的多视角立体网络

Point-MVSNet 是用 point clouds 直接处理目标场景的深度学习网络，通过将 3D 几何先验和 2D 纹理信息融入特征增强的 point cloud 中，实现了在 multi-view stereo 中更高的精度、更高的计算效率和更大的灵活性。

Aug, 2019

双向投影网络用于跨维度场景理解

提出一种双向投影网络（BPNet），它包括 2D 和 3D 子网络，通过双向投影模块允许这两个视觉领域之间的互动，实现更好的场景识别。该算法在 2D 和 3D 语义分割方面，取得了 ScanNetV2 基准的最佳性能。

Mar, 2021