人类视觉注意引导的周边 - 中央多分辨率驾驶模型
本文旨在预测驾驶员的注意力集中情况,提出了一种基于多分支深度架构的计算机视觉模型,集成了三种信息源:原始视频、动态和场景语义,并介绍了 DR (eye) VE,这是迄今为止最大的驾驶场景数据集,结果强调了跨驾驶员共享的注意力模式,可在人车交互和驾驶员注意力分析等多个应用方面受益。
May, 2017
本文提出了一种生物启发的凹视检测器(FOD)作为在计算机视觉目标检测中搜索的主要方法中滑动窗口 (SW) 方法的替代方案。这种方法通过结合现代计算机视觉中的目标检测器和人类视觉系统的 V1 层中发现的外围汇集区域的最近模型,实现了显着的计算成本节省。
Aug, 2014
FOVEA 是一种基于人眼视觉特点,通过可微分的重采样层对高分辨率图像进行智能降采样,保证感兴趣区域的像素不会丢失,在自动驾驶数据集 Argoverse-HD 和 BDD100K 上,能够提升小物体检测的准确率而不降低大物体的准确率,并创造了流媒体 AP(同时考虑准确性和延迟)的新记录。
Aug, 2021
我们提出了一种使用安装在车辆挡风玻璃和仪表盘上的普通摄像头来估计驾驶员凝视点的新方法。该方法通过开发一种卷积网络来同时分析场景图像和驾驶员面部图像,其中包含一个相机校准模块,可以计算表示驾驶员和摄像头系统之间空间配置的嵌入向量,该模块改善了网络的性能并可以进行端到端的联合训练。我们还引入了一种大规模的驾驶数据集,其中包含了真实驾驶情景的图像以及驾驶员面部和凝视数据,对该数据集的实验表明,所提出的方法优于各种基准方法,均方误差为 29.69 像素,相对于场景摄像头的 $1280 {imes} 720$ 分辨率而言,误差较小。
Apr, 2024
本文研究利用低成本车载摄像头进行自主驾驶算法,并通过深度神经网络将原始输入图像直接映射到方向盘角度的视觉模型,提出了一种结合空间和时间线索的模型,有助于解释学习到的模型,通过分析人类驾驶数据,比较了此模型与其他自主驾驶车辆状态先进模型的性能差异。
Aug, 2017
提出基于前视单目图像的局部鸟瞰地图重建新框架,利用前向到俯视图像变换(FTVP)模块中的多尺度设计和周期性一致性约束,实现低成本高效的道路与汽车区域感知以及多类别场景理解。在公共基准测试中,该方法在道路布局估计,车辆占用估计和多类别语义估计任务中均达到了最先进的性能,并且在多类别语义估计中优于所有竞争对手。
Nov, 2022
本研究针对自动驾驶中的多视角预测车辆状态的问题,提出了一种多视角与历史轨迹相融合的预测框架,并通过使用 3D 卷积从视频中提取视觉特征以及通过 1D 卷积从车速和转向角度轨迹数据中提取特征,实现了在实际数据集上的车辆状态预测任务中的优越表现。
Jul, 2021
本项目实现了一个端到端系统,该系统接收来自普通摄像头的视频帧的综合视觉特征和来自点云扫描仪的深度信息,并预测驾驶策略(车辆速度和转向角度)。通过与真实世界经验丰富的驾驶员的标准行为进行比较,我们验证了我们系统的安全性。我们的测试结果表明,在至少一半的测试案例中(取决于模型),预测结果可以被视为准确的,并且与仅使用视频帧相比,使用综合特征在大多数情况下提高了性能。
Jul, 2023