MM-Point：多视图信息增强的多模态自监督 3D 点云理解

AAAIFeb, 2024

MM-Point：多视图信息增强的多模态自监督 3D 点云理解

MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding

Hai-Tao Yu, Mofei Song

TL;DR提出一种新颖的自监督点云表示学习方法 MM-Point，通过多模态交互和传输同时处理三维物体和多个二维视图之间的一致跨模态目标，以及通过多个 MLP 和多层次增强策略来更有效地实现二维多视图信息的一致性对比学习，进一步学习了二维多视图的多层次不变性。MM-Point 在各种下游任务中展现出最先进的性能，如在合成数据集 ModelNet40 上达到了 92.4% 的峰值准确率，在真实数据集 ScanObjectNN 上达到了 87.8% 的最高准确率，与全监督方法可媲美。此外，我们还展示了它在少样本分类、三维部分分割和三维语义分割等任务中的有效性。

Abstract

In perception, multiple sensory information is integrated to map visual information from 2D views onto 3D objects, which is beneficial for understanding in 3D environments. But in terms of a single 2D view rendered from different angles, only limited partial information can be provided.The richness and value of →

multi-view 2d information self-supervised point cloud representation learning cross-modal objective consistency

发现论文，激发创造

CrossPoint: 自监督的跨模态对比学习，用于三维点云理解

本研究提出了一种名为 CrossPoint 的简单跨模态对比学习方法，通过自监督学习，在不需要人类标注的情况下，实现可转移的三维点云表示，通过最大化点云和相应渲染的二维图像之间的协议，实现了三维物体分类和分割等多项任务，并验证了我们的方法在提高点云理解方面的效果。

Mar, 2022

超越第一印象：整合多模态联合线索用于全面的 3D 表示

通过引入多视图联合模态建模方法，该研究论文提出了一种名为 JM3D 的新方法，以解决 3D 表示学习中的信息降解和不足协同问题，并在零样本 3D 分类任务上取得了领先于现有方法的性能。

Aug, 2023

多视点 PointNet 用于 3D 场景理解

本文介绍了 MVPNet 模型，该模型使用视图选择和 2D-3D 特征聚合模块将 2D 多视图图像特征汇集到 3D 点云中，并使用基于点的网络将 3D 规范空间中的特征融合以预测 3D 语义标签。该方法在 3D 语义分割任务上，优于以前的点云方法，并且训练速度比稀疏体素方法的大型网络快得多。

Sep, 2019

自监督的模态与视角不变特征学习

该论文提出了基于异构网络的多模式和多视角无关特征学习方法，通过两种约束条件实现特征信息的跨模式和跨视角一致性，并在三种数据模态下进行了验证。实验结果表明该方法能够提取出鲁棒性较强的高质量特征。

May, 2020

跨模态和跨视角自监督特征学习

通过利用跨模式和视角的对应关系，该论文提出了一种新颖且有效的自监督学习方法，联合学习 2D 图像特征和 3D 点云特征，并通过神经网络评估跨模态的对应关系，而无需使用人工标注标签。

Apr, 2020

利用图像获取更多信息：点云跨模态训练用于形状分析

本文介绍了一种称为 PointCMT 的简单而有效的点云交叉模态训练策略，通过使用视图图像（即三维对象的渲染或投影的二维图像）来促进点云分析，进而更好地实现了三维点云表征。实验证明，PointCMT 有效地改进了点云的表示方法，在不修改架构的情况下，基于 PointCMT 的模型在 ModelNet40 和 ScanObjectNN 等各种数据集上均实现了最先进的性能。

Oct, 2022

3M3D: 多视角、多路径、多表征 3D 目标检测

提出了一种基于多视图轴自注意力和局部 ROI 自注意力的多路径多表示 3D 物体检测方法，通过稀疏浮动查询和密集 BEV 查询的多重表示进一步提高了性能，对于自动驾驶系统具有重要意义。

Feb, 2023

大规模三维语义分割中的野外多视角聚合学习

本文提出了一种端到端可训练的多视角聚合模型，利用 3D 点的视角优势，从任意位置拍摄的图像中合并特征，将标准 2D 和 3D 网络相结合，不需要着色、上网格或真实深度图，我们在 S3DIS 和 KITTI-360 数据集上取得了新的最佳效果。

Apr, 2022

多模态多层次融合的三维单目标跟踪

提出 MMF-Track，一种多模态多级融合跟踪器，利用点云的几何和图像纹理特征跟踪 3D 目标，在 KITTI 上实现了最先进的性能表现，并在 NuScenes 上具有竞争力。

May, 2023

JM3D 和 JM3D-LLM：借助联合多模态提示提升 3D 表示

为了解决 3D 数据与 2D 图像和文本的对齐问题带来的信息退化、协同不足和细节利用不充分的挑战，本文介绍了一种综合点云、文本和图像的综合方法 JM3D，其关键贡献是结构化多模态组织器和联合多模态对齐，通过高效的微调将 3D 表示与大型语言模型相结合，JM3D-LLM 在 ModelNet40 和 ScanObjectNN 的评估中表现出优势，进一步证明了我们的表示转换方法的有效性。

Oct, 2023