自监督的模态与视角不变特征学习
通过利用跨模式和视角的对应关系,该论文提出了一种新颖且有效的自监督学习方法,联合学习 2D 图像特征和 3D 点云特征,并通过神经网络评估跨模态的对应关系,而无需使用人工标注标签。
Apr, 2020
提出一种新颖的自监督点云表示学习方法 MM-Point,通过多模态交互和传输同时处理三维物体和多个二维视图之间的一致跨模态目标,以及通过多个 MLP 和多层次增强策略来更有效地实现二维多视图信息的一致性对比学习,进一步学习了二维多视图的多层次不变性。MM-Point 在各种下游任务中展现出最先进的性能,如在合成数据集 ModelNet40 上达到了 92.4% 的峰值准确率,在真实数据集 ScanObjectNN 上达到了 87.8% 的最高准确率,与全监督方法可媲美。此外,我们还展示了它在少样本分类、三维部分分割和三维语义分割等任务中的有效性。
Feb, 2024
通过将基于网格的功能映射正则化与连续损失相结合的自监督多模态学习策略相结合,我们提出了一种形状匹配方法,它能够针对三角形网格、完整点云和部分观测点云获得同模式和跨模态的对应关系,并在多个基准数据集上取得了最先进的结果,具有先前未见的跨数据集普适性。
Mar, 2023
本研究提出了一种名为 CrossPoint 的简单跨模态对比学习方法,通过自监督学习,在不需要人类标注的情况下,实现可转移的三维点云表示,通过最大化点云和相应渲染的二维图像之间的协议,实现了三维物体分类和分割等多项任务,并验证了我们的方法在提高点云理解方面的效果。
Mar, 2022
本研究提出了一种基于均质结构和自注意力机制的多模态特征融合和交互方法,通过将相机特征转换为 LiDAR 3D 空间,在避免项目信息丢失的同时增强了在复杂背景下的鉴别能力,在 KITTI 基准中超越了所有已发表的算法。
Oct, 2022
本文针对自监督学习在 3D 视觉中的应用,提出了一个统一的框架,并对各个不变性进行了全面的研究和比较。同时,文章还提出了一个简单而有效的对 3D 编码器和深度图编码器进行联合自对比学习的方法,并在下游任务中取得了显著的性能提升。
Jul, 2022
本文介绍了一种名为 CrossVideo 的新方法,旨在增强点云视频理解领域的自监督跨模态对比学习。通过利用点云视频和图像视频之间的跨模态关系获取有意义的特征表示,我们提出了一种自监督学习方法来解决数据稀缺和标签获取困难的问题。通过使用单模态和跨模态对比学习技术,我们实现了对点云视频的有效理解,并提出了一种适用于两种模态的多层对比方法。通过广泛的实验证明,我们的方法明显超过了先前的最先进方法,并进行了全面的消融研究来验证我们提出的设计的有效性。
Jan, 2024
本文介绍了一种称为 PointCMT 的简单而有效的点云交叉模态训练策略,通过使用视图图像(即三维对象的渲染或投影的二维图像)来促进点云分析,进而更好地实现了三维点云表征。 实验证明,PointCMT 有效地改进了点云的表示方法,在不修改架构的情况下,基于 PointCMT 的模型在 ModelNet40 和 ScanObjectNN 等各种数据集上均实现了最先进的性能。
Oct, 2022
我们提出了基于点云和多视角图像的自我和交叉注意力聚合方法 (SCA-PVNet) 来进行三维目标检索,通过设计两种特征聚合模块(即 In-Modality Aggregation Module (IMAM) 和 Cross-Modality Aggregation Module (CMAM)),通过自我和交叉注意力机制有效地融合多视角特征和点云特征,从而获得目标检索的最终描述符。我们在从小到大范围的三个数据集上进行了大量实验和分析,证明了提出的 SCA-PVNet 方法在三维目标检索领域的卓越性能。
Jul, 2023