室内场景解析的三维到二维提炼
通过使用 RGB 图像提供场景的更密集表示,我们提出了一种基于图像引导网络(IGNet)的方法,该方法借鉴了通过域适应合成训练的 2D 语义分割网络中的高级特征信息,进一步利用了一种称为 FOVMix 的新型混合策略以解决两个传感器之间的水平视场不匹配问题,以增强图像引导效果,并在 ScribbleKITTI 上实现了弱监督 LiDAR 语义分割的最先进结果,与全监督训练相比,仅使用 8% 的标记点,无需额外的标注负担或推理中的计算 / 内存成本。此外,我们还展示了我们的方法在半监督训练中的有效性,IGNet 在 ScribbleKITTI 和 SemanticKITTI 上均取得了最先进的结果。
Nov, 2023
自监督图像网络在解决复杂的 2D 任务(如语义分割、目标发现)时非常高效且几乎没有下游监督要求,然而,当前基于激光雷达数据的自监督 3D 网络表现不佳,因此有几种方法提议将高质量的自监督 2D 特征转移到 3D 网络中,最近在自动驾驶数据上进行的尝试显示了有希望的结果,然而,这些转移后的特征与完全监督的特征之间仍然存在差距,本文重新审视了 2D 到 3D 转移,首先,针对语义分割,我们提出了一种简单的方法,相对于之前的 3D 转移方法实现了显著的提高,其次,我们证明了在高容量的 3D 网络中进行转移对于获得高质量的 3D 特征至关重要,这实际上使我们能够显著缩小无监督转移的 3D 特征与完全监督特征之间的差距,最后,我们表明我们所得到的高质量转移表示还可以用于开放词汇的分割和背景 / 前景发现。
Oct, 2023
本研究提出了一种新颖的 3D 到 2D 蒸馏框架,利用预训练的 3D 模型增强 2D 单层切片分割,并在 707 个受试者数据集上进行的实验证明,该方法能够改善单层多器官分割的性能,尤其在低数据量情况下表现出色。
Jun, 2024
该研究提出了一个跨模态蒸馏框架 PartDistill,将二维视觉 - 语言模型的知识转移给三维形状的部分分割,通过解决三个主要挑战(二维投影中不可见或未检测区域的三维分割缺失、VLM 的二维预测不准确和不一致、不同三维形状之间的知识积累不足),PartDistill 在该任务中取得了显著的进展。通过在框架内进行正向和反向的蒸馏,PartDistill 能够提高最终的三维部分分割结果,并且可以利用生成模型生成用于蒸馏的知识源。在广泛使用的 ShapeNetPart 和 PartE 数据集上进行的大量实验证明,PartDistill 相比现有方法在 mIoU 分数上显著提升,分别高出 15% 和 12%。
Dec, 2023
该研究论文提出了一种基于图像的物体姿态估计方法,利用多模态方法学习的 3D 知识通过对比知识蒸馏框架有效地转移给单模态模型,使其在没有 3D 信息的情况下提升物体姿态估计准确率,实验证明了该方法的有效性。
Jun, 2022
将自然语言与物理世界联系起来是一个应用广泛的话题,该论文提出了一种基于对象中心先验知识的多视角特征融合策略,用于改善基于 2D 和 3D 图像的自然语言 grounding 和语言引导机器人抓取任务。
Jun, 2024
提出了一种端到端的三维重建方法,通过直接回归截断带符号距离函数(TSDF)从一组姿势 RGB 图像中实现。使用 2D CNN 独立地提取每个图像的特征,然后通过相机内参和外参进行反投影和累积到体素体积中。此外,通过该方法获取到了三维模型的语义分割。该方法在 Scannet 数据集上得到了评估,既在量化指标上,也在视觉效果上都超过了国际领先的基准结果。
Mar, 2020
我们提出了一种具有交叉模态知识蒸馏的双向融合网络(CMDFusion),通过 2D 到 3D 融合和 3D 到 2D 融合显式和隐式增强了 3D 特征,并通过从 2D 网络到 3D 网络的蒸馏传递 2D 知识,使得 3D 网络能够根据 3D LIDAR 输入生成 2D 信息,无需在推理过程中使用 RGB 图像。我们的 CMDFusion 在 SemanticKITTI 和 nuScenes 数据集上表现出了最佳性能。
Jul, 2023
本文提出了一种基于深度学习网络、自我监督和知识蒸馏的训练协议,能够同时学习单目摄像机所需的几何、运动和语义信息,从而实现对整个场景的全面识别。实验结果表明,该框架不仅在单目深度估计、光流和运动分割等任务中取得了最先进的性能表现,并且能够在高性能 GPU 和低功耗嵌入式平台上实现高效的应用。
Mar, 2020
该研究提出了一种基于 RGBD-GAN 的新型生成模型,可以从 2D 图像中实现无监督的 3D 表示学习,并能通过相机参数进行图像生成和深度图像生成,无需 3D 注释,通过实验证明其对各种生成器体系结构都具有普适性。
Sep, 2019