瞄准正确的物品:自动驾驶的引导性语义凝视
该论文提出了一种自适应的方法来清洗现有的人类凝视数据集,并提出了一个健壮的卷积自我注意凝视预测模型,实验证明我们的清洗方法和模型能够显著提高 ADS 性能和泛化能力。
May, 2023
我们提出了一种使用安装在车辆挡风玻璃和仪表盘上的普通摄像头来估计驾驶员凝视点的新方法。该方法通过开发一种卷积网络来同时分析场景图像和驾驶员面部图像,其中包含一个相机校准模块,可以计算表示驾驶员和摄像头系统之间空间配置的嵌入向量,该模块改善了网络的性能并可以进行端到端的联合训练。我们还引入了一种大规模的驾驶数据集,其中包含了真实驾驶情景的图像以及驾驶员面部和凝视数据,对该数据集的实验表明,所提出的方法优于各种基准方法,均方误差为 29.69 像素,相对于场景摄像头的 $1280 {imes} 720$ 分辨率而言,误差较小。
Apr, 2024
我们提出了一种结合司机困倦检测系统和基于显著性的场景理解流水线的智能系统,该系统在嵌入式平台上运行,并利用专用 3D 深度网络进行语义分割。我们还使用车辆方向盘上嵌入的创新生物传感器来监测驾驶员的困倦程度,并对收集到的驾驶员脉搏波信号进行分类,从而评估驾驶员的注意力水平。最后,我们将司机的注意力水平与基于显著性的场景分类进行比较,以评估整体安全水平。通过广泛的实验结果验证了该流水线的有效性。
Jul, 2023
本文旨在预测驾驶员的注意力集中情况,提出了一种基于多分支深度架构的计算机视觉模型,集成了三种信息源:原始视频、动态和场景语义,并介绍了 DR (eye) VE,这是迄今为止最大的驾驶场景数据集,结果强调了跨驾驶员共享的注意力模式,可在人车交互和驾驶员注意力分析等多个应用方面受益。
May, 2017
精确预测驾驶员的凝视是基于视觉的驾驶员监控和辅助系统的重要组成部分,本文介绍了一种使用 GPS 数据对任务和环境进行建模的驾驶员凝视预测模型 SCOUT+,并证明了其相对于底层模型和顶层模型 SCOUT 在两个数据集上的改进效果。
Apr, 2024
提出 SalGaze,一种利用视觉内容中的显著性信息,无需显式用户校准,可透明地适应用户注视估计算法的框架,能够使用与标准点校准数据不同的显式视频显著性校准数据的统一框架,优于现有方法,精度提高了 24%。
Oct, 2019
该研究使用 IVGaze 数据集,提出了一种车内注视估计方法并引入了新的注视金字塔变换器和双流注视金字塔变换器,展示了目前最先进的表现,并探索了注视区域分类的新策略。
Mar, 2024
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016