无人驾驶中基于车辆未知性考虑的运动预测安全性研究
通过使用动态结构方程模型,我们提出了一种用于预测信任动态的模型。在无人机模拟任务中,我们以 90% 的准确率预测了过度 / 不足的信任,而在自动驾驶任务中,我们以 99% 的准确率进行了预测。这些结果表明我们的方法优于传统方法,包括自回归模型。
Jul, 2024
FALCON 是一种单图像去雾系统,利用频域操作来扩大感知范围,通过连续密度掩模来处理大气散射模型,具备在实时应用领域(如自动驾驶)中获得最新性能的能力。
Jul, 2024
利用深度强化学习(DRL)和混合 A * 路径规划方法,在自动驾驶系统中实现高级决策与低级轨迹规划,并通过真实系统验证其可行性。
Jul, 2024
提出了一种名为 TOKEN 的多模态大语言模型(MM-LLM),通过在长尾场景中对传统的端到端驾驶模型进行优化,将世界分解为物体级知识的令牌化,有效缓解了数据稀缺和低效的标记问题,并实现了在基于常识的推理能力上的优越表现。
Jul, 2024
该研究介绍了一种两阶段、端到端可训练的自信感知融合网络 (CaFNet),用于通过将 RGB 图像与稀疏且含噪的雷达点云数据相结合,进行密集的深度估计,并通过滤除雷达噪声,提高深度图的可靠性。在 nuScenes 数据集上进行的评估表明,该方法在平均绝对误差 (MAE) 和均方根误差 (RMSE) 方面的性能优于当前领先模型 3.2% 和 2.7%。
Jun, 2024
该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法,包括输入输出模态、网络结构和学习方法的分类,历史里程碑,以及现有方法使用的流程、数据集和评估指标。
Jun, 2024
足球中的运动预测通过捕捉球员和球的相互作用的复杂动力学。我们提出了 FootBots,一种基于编码器 - 解码器变压器结构的体系结构,通过等变性属性来解决运动预测和有条件的运动预测。FootBots 使用集合注意力块和多注意力块解码器来捕捉时间和社交动力学。我们的评估使用两个数据集:一个真实的足球数据集和一个定制的合成数据集。合成数据集的洞见突显了 FootBots 社交注意机制的有效性和有条件运动预测的重要性。对真实足球数据的实证结果表明,FootBots 在运动预测方面优于基准模型,并在有条件任务中表现出色,例如根据球的位置预测球员,根据球和防守(进攻)球队预测进攻(防守)球队,以及根据所有球员预测球的位置。我们的评估连接了定量和定性研究结果。
Jun, 2024
本研究提出了一种新颖的基于图像引导的室外点云质量评估算法(IGO-PQA),该算法利用点云数据、对应的 RGB 环境图像和车辆目标真值注释生成基于单帧 LiDAR 点云的整体质量得分,并通过变换器实现无参考室外点云质量评估的直接预测。评估结果表明,IGO-PQA 生成算法提供了一致且合理的感知质量指标,而 IGO-PQA 回归算法在 nuScenes 数据集上达到了 0.86 的皮尔逊线性相关系数,并在 Waymo 数据集上达到了 0.97。
Jun, 2024
自主移动机器人可以在人类环境中依赖多种人体运动检测和预测系统,但底层模型架构可能对机器人在现实世界中的可信度产生不同的影响。本文针对基于上下文的人体运动预测的现有解决方案中的一些方法,展示了将符号知识与现代神经网络相结合的好处。尤其是最近的神经符号结构(NeuroSyM)成功地将上下文与定性轨迹计算(QTC)相结合,以进行空间交互表示。这项工作在离线数据集上比仅使用神经网络的基准架构取得了更好的性能。为了在实际场景中为机器人部署提供便利,我们将原始架构扩展为 neuROSym,一个面向机器人部署的 ROS 软件包,可以在线运行、可视化和评估以往的仅使用神经网络和神经符号模型进行运动预测的模型。我们在两个具有不同人体运动模式的场景中评估了这些模型,NeuroSyM 和基准 SGAN,并评估了预测模型的准确性和运行时性能,结果表明使用我们的神经符号架构普遍改善了性能。我们将 neuROSym 软件包公开提供给机器人社区。
Jun, 2024
本论文探讨了将 GPT-4V 视觉语言模型应用于矿山环境中的自动驾驶,它能够理解意图并在紧急情况下做出准确决策。通过视觉问答和复杂场景理解,GPT-4V 解决了这些特殊环境下的挑战,如识别和解释行人、各种车辆和交通设备等元素。尽管 GPT-4V 在准确识别特定车型和管理动态交互方面存在困难,但其有效的导航和策略决策展示了其在矿山环境复杂条件下作为可靠自动驾驶代理的潜力,凸显了其在工业环境中的适应性和可操作性。
Jun, 2024