精细化的三维物体识别:方法和实验
综述了基于多视图三维物体识别方法在三维分类和检索任务方面的最新进展,聚焦于基于深度学习和基于 Transformer 技术的方法,包括常用的三维数据集、相机配置和视角数量、视角选择策略、预训练卷积神经网络架构、融合策略以及在三维分类和检索任务上的识别性能,同时考察了多视图分类在计算机视觉应用中的各种情况,并凸显了关键发现和未来发展方向。
Apr, 2024
通过与 ImageNet 数据集相结合,ImageNet3D 数据集提供了 200 个类别的 2D 和 3D 信息,从而为构建具有更强的通用性目标级三维理解的视觉模型提供了潜力。
Jun, 2024
本研究通过设计一种数据获取协议,对目前的深度学习方法在机器人视觉中的物体识别效果进行了广泛研究,并介绍了一个新的数据集。研究结果表明,需要知识转移才能提高性能,同时发现了机器人应用中的物体识别问题与图像检索任务之间的主要差异。
Sep, 2017
本篇论文旨在通过两种创新,基于从运动视角观察物体的方式,不需要手动注释,实现学习 3D 物体类别的传统方法。我们的系统基于两种创新:一种是具有鲁棒性的 Siamese 视点因子分解网络,可以对不同的视频进行对齐;另一种是可以从部分观测中提取对象的完整形状的 3D 形状完成网络。我们还演示了配置网络以执行概率预测和几何感知数据增强方案的好处。在公开可用的基准测试中,我们获得了最先进的结果。
May, 2017
本文提出了一种 3D 物体识别方法,利用 2D-3D 物体提升技术,逐步将对象检测输出增加到对象视点,关键点和 3D 形状估计,并在 Pascal3D + 数据集上同时实现 2D 边界框和视点估计的最佳方法。
Mar, 2015
本文提出了一种基于单个 RGB 图像的高效三维目标检测框架,旨在从二维图像中提取三维信息并在无点云或立体数据的情况下确定对象的精确三维边界框。该方法利用二维目标检测器提取表面视觉特征,消除使用二维边界框带来的表征歧义问题,并探索了不同的三维边界框细化方法,发现基于质量感知损失的分类式方法具有更好的性能。在 KITTI 基准测试上,该方法优于当前单个 RGB 图像基础的三维目标检测技术水平。
Mar, 2019
提出一种基于深度学习架构的机器人知识动态更新方法,该方法可以在不重新训练整个系统的情况下检测和学习感知对象是否属于系统已知的类别集,并可通过手动标注或网络自动挖掘获得新的类别信息以扩展系统知识。
Jun, 2019
通过将深度学习与 RGB-D 数据相结合,提出了一种用于高效 3D 实例分割的新方法,该方法通过点状渲染模块将 2D 区域卷积神经网络(Mask R-CNN)模型与深度信息集成,可以识别和分割对象的 3D 实例,实验证明该方法对于支持机器人和智能系统中的物体处理非常有益。
Jun, 2024
综述了近期基于深度学习的三维物体分割,涵盖了 150 多篇文章,总结了最常用的算法流程、讨论了它们的优缺点,并分析了这些分割方法的竞争结果,最后提出了未来的研究方向。
Mar, 2021
该论文提出了一种新的基于神经纹理的 3D-aware 分类方法,通过使用不同可微渲染技术来估计 3D 目标姿态和分类信息,并得到了比现有单一任务模型更加鲁棒的结果。
May, 2023