基于 Faster RCNN 的串联双通道图书馆占有率检测系统
该研究提出了一种基于端到端智能摄像头的停车系统,通过一个名为OcpDet的对象检测器,自主发现停车位的占用情况,并在推理过程中通过对比模块提供有意义的信息,避免了误检测,经过PKLot数据集的基准测试,其结果与传统分类解决方案相当,同时引入了额外的SNU-SPS数据集,以各种视角评估系统性能和执行停车分配任务,结果显示我们的系统非常适合实际应用。
Aug, 2022
本文提出了一种基于OccupancyM3D的单眼3D检测方法,通过利用同步的稀疏LiDAR点云,直接在截锥体和3D空间中学习占用情况,从而生成具有更强区分性和信息性的3D特征和表示,并通过占用预测来增强原始的截锥体/3D特征, 经KITTI和Waymo数据集实验结果表明,该方法达到了新的最佳表现,并远远超过了其他方法。
May, 2023
本文提出了Open Vocabulary Occupancy (OVO)算法,通过知识蒸馏和像素-体素筛选两个关键步骤,可以对任意类别进行语义占据的预测,同时适用于大多数最先进的语义占据预测模型。在NYUv2和SemanticKITTI数据集上,OVO与有监督的方法相比具有竞争性的性能。
May, 2023
我们提出了一种新的3D语义占有率感知方法OccupancyDETR,它包括一个类DETR的目标检测模块和一个3D占有率解码器模块,通过集成目标检测简化了我们的方法结构,提高了速度和性能,在SemanticKITTI数据集上展示了在实时3D语义场景完成方面的有效性。
Sep, 2023
我们介绍了UT Campus Object Dataset(CODa),这是在德克萨斯大学奥斯汀分校采集的移动机器人自我中心感知数据集。我们的数据集包含8.5小时的多模态传感器数据:来自128通道3D LiDAR和两个1.25MP RGB相机的同步3D点云和立体RGB视频,帧率为10fps;来自额外的0.5MP传感器的RGB-D视频,帧率为7fps,并带有40Hz的9-DOF IMU传感器。我们提供了58分钟的地面真值注释,其中包含130万个含有53个语义类别的实例ID的3D边界框,以及5000帧的城市地形的3D语义注释和伪地面真值定位。使用CODa,我们实证地表明:1)与现有数据集相比,使用CODa进行训练的城市环境下的3D对象检测性能显著提高,即使采用最先进的领域自适应方法;2)传感器特定的微调改善了3D对象检测准确性,3)在CODa上进行预训练相比于在AV数据集上进行预训练,可以提高跨数据集城市环境下的3D对象检测性能。使用我们的数据集和注释,我们发布了使用已建立的度量标准进行3D对象检测和3D语义分割的基准。在未来,CODa基准将包括其他任务,如无监督的对象发现和重新识别。我们在Texas Data Repository上公开发布了CODa,还提供了预训练模型、数据集开发包和交互式数据集查看器。我们期望CODa能成为在城市环境中自我中心的3D感知和自主导航规划方面的研究的宝贵数据集。
Sep, 2023
提出了一种名为FlashOCC的插拔式预测框架,用于在维持高精度的同时实现快速和内存高效的占据预测,通过在BEV中保留特征并引入通道到高度的转换,相比现有方法在精度、运行时效率和内存开销等方面表现出更高的优势,展示了其在部署中的潜力。
Nov, 2023
在自动驾驶中,通过分析网络效应和延迟,本文提出了一种名为FastOcc的新方法,通过用轻量级的2D BEV卷积网络代替时间消耗较大的3D卷积网络,加快模型的推理速度,同时保持准确性,从而实现了优越的性能。
Mar, 2024
室内场景的相机三维占据预测在外部驾驶场景中近来引起了越来越多的关注,然而,在室内场景中的研究相对较少。这篇论文中,我们提出了一种名为ISO的新方法,用于使用单目图像预测室内场景的占据情况。ISO利用预训练的深度模型的优势来实现准确的深度预测。此外,我们在ISO中引入了双特征视线投影(D-FLoSP)模块,增强了三维体素特征的学习。为了促进该领域的进一步研究,我们介绍了Occ-ScanNet,一个用于室内场景的大规模占据基准。它的数据集大小比NYUv2数据集大40倍,为未来的可扩展室内场景分析研究提供了便利。在NYUv2和Occ-ScanNet上的实验结果表明,我们的方法达到了最先进的性能。数据集和代码已在此URL公开。
Jul, 2024
本文解决了语义占用预测中深度学习模型训练面临的挑战,如占用单元数量庞大和视觉线索有限等问题。提出的OccMamba模型灵感来源于Mamba架构,通过3D到1D的重排操作显著提升了占用预测的性能,并在多个基准测试中取得了最先进的结果,尤其在OpenOccupancy数据集上超越了之前的最佳模型。
Aug, 2024