通过层次特征对齐预训练和区域感知微调的通用标签高效三维场景解析
在标签有限的情况下,本文提出了一种通用而简单的框架来解决点云理解问题,利用传统和学习到的 3D 描述符进行方法比较,并提出了基于亲和性的学习区域合并策略,该方法在各种实验设置下优于现有方法,无需复杂的学习策略。
Dec, 2023
本文介绍了一种在有限标签情况下解决点云理解问题的通用简单框架,通过无监督区域扩展的聚类方法生成聚类,并结合地理特征相似性和语义特征相似性在弱标签监督下学习合并过度细分的聚类,以及自监督重建和数据增强优化模块引导标签在场景中语义相似点之间的传播。实验证明,该框架在大规模 3D 语义场景解析的数据效率设置下,在语义分割、实例分割和目标检测等三个重要弱监督点云理解任务中表现最佳,所开发技术还具有对机器人操作和自主导航中的下游任务提供更好表示的潜力。代码和模型可在链接处公开获取。
Dec, 2023
通过对具有语义丰富标题的多视图图像进行记录,来设计分层三维标题对,使用对比学习,学习与图像相连的语言感知嵌入,并在开放词汇语义和实例分割方面表现出卓越的性能,具有鲁棒的可迁移性。
Nov, 2022
通过构建一个 CSC 框架,我们综合使用视觉基础模型提供的语义线索和多模态信息的知识丰富的跨场景原型,实现了一种具有各种下游任务的更少微调工作量的通用 3D 预训练模型。
May, 2024
基于神经隐式表示的 3D 场景分割方法,通过多视图图像特征和语义地图作为输入,采用软投票机制来聚合来自不同视图的二维语义信息,结合视角差异信息预测投票分数,通过可见性模块筛选掉遮挡视图的有害信息,在只有二维语义监督的情况下,能够综合合成语义地图或进行新场景的三维语义分割。
Oct, 2023
通过使用视觉 - 语言(VL)基础模型,将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉 - 语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题,从而在 3D 语义、实例和全景分割任务中获得显著的改进。
Aug, 2023
本研究旨在促进 3D 深度学习表示学习的研究,重点关注高级场景理解任务,使用统一的三元组架构、源数据集和对比损失进行无监督预训练,对室内和室外、真实和合成数据集的 6 个不同基准进行分割和检测,取得了鼓舞性的结果,表明学习到的表示可以在不同领域推广使用,并且与监督的预训练的改善程度相似,建议未来的努力应该更加注重扩充数据收集而非详细标注。
Jul, 2020
通过利用生成贝叶斯网络产生具有真实世界模式的多样化合成场景,并通过联合学习粗到精的对比学习任务和遮挡感知重建任务,我们提出了可泛化的表示学习(GRL)方法,从而为三维场景的理解提供了可传递、几何信息化的表示。在合成数据的预训练之后,我们的模型的所掌握的知识可以通过真实世界基准数据集实现无缝传递到与三维场景理解相关的两个主要下游任务,即三维物体检测和三维语义分割,并通过详尽系列的实验证明了我们方法相对于现有最新预训练方法的持续优势。
Jun, 2024