创新至职业本体论:将业务转型计划与职业和技能相连接
我们提出了 OpenOcc,一种将 3D 场景重建和开放词汇理解与神经辐射场结合的新型框架。通过占位表示法对场景的几何结构进行建模,并通过体素渲染将预训练的开放词汇模型蒸馏为 3D 语言场,以实现零 - shot 推理。此外,我们提出了一种新颖的语义感知置信度传播(SCP)方法,以缓解由于蒸馏特征中不一致测量而引起的语言场表示退化问题。实验证明,我们的方法在 3D 场景理解任务中取得了有竞争力的性能,特别是对于小物体和长尾物体。
Mar, 2024
通过采用自适应前视转换和流建模的双阶段框架,我们提出了一种创新的方法,以增强 3D 占用和流的预测能力。我们首先独立训练占用模型,然后使用连续帧集成进行流预测。我们的方法将回归与分类相结合,以解决不同场景中的尺度变化,并利用预测的流将当前体素特征扭曲到未来帧,由未来帧的真值引导。在 nuScenes 数据集上的实验结果表明,我们的方法在准确性和鲁棒性方面取得了显著的改进,展示了我们方法在真实环境下的有效性。基于 Swin-Base 的单一模型在公共排行榜上排名第二,验证了我们方法在推进自动驾驶车辆感知系统方面的潜力。
Jul, 2024
本文提出了 Open Vocabulary Occupancy (OVO) 算法,通过知识蒸馏和像素 - 体素筛选两个关键步骤,可以对任意类别进行语义占据的预测,同时适用于大多数最先进的语义占据预测模型。在 NYUv2 和 SemanticKITTI 数据集上,OVO 与有监督的方法相比具有竞争性的性能。
May, 2023
通过提出一种新的 3D Occupancy 表示法 (OccNet),并在 nuScenes 数据集上建立了 OpenOcc,我们方法能够有效地为多个驾驶任务提供有力的支持,并取得了显著的性能收益,例如运动规划可以实现 15%-58%的碰撞率降低。
Jun, 2023
O2V-mapping utilizes voxel-based language and geometric features to achieve online construction of open-vocabulary language scenes, overcoming challenges such as lack of local scene updating ability, blurry spatial hierarchical semantic segmentation, and difficulty in maintaining multi-view consistency.
Apr, 2024
我们提出了一种时空预测网络管道,它可以从环境和语义标签中获取过去的信息来生成未来的占用预测,并将其应用于复杂的 nuScenes 数据集中,相较于当前 SOTA,我们的方法可以预测长达 3 秒的占用情况,并不需要 HD-Maps 和明确模拟动态物体。
May, 2022
本文介绍并对比三种多机器人交互预测算法,包括使用直观的定性表示,纳入静态和动态上下文,采用输入和时间注意力机制,基于状态 - of-the-art 深度神经网络,利用数据驱动的预测方法和 QTC 空间交互进行运动预测。实验结果表明,纯数据驱动的预测方法通常优于其他两种方法,并进一步评估其泛化能力。
Jun, 2023
本文简述了在 3D 占用预测挑战中获胜的解决方案,该方案基于 FB-BEV,并在其基础上进一步研究了针对 3D 占用预测任务的新设计和优化。最终结果表明,该方案在 nuScenes 数据集上获得了最先进的 mIoU 得分,排名挑战榜的第一位。
Jul, 2023
基于 3D 占据率、多视图特征聚合和动态场景的研究,我们提出了 ViewFormer,一个基于 Transformer 的视觉中心框架,具有高度的可扩展性和优越性能。
May, 2024