瞄准正确的物品：自动驾驶的引导性语义凝视

CVPRNov, 2019

瞄准正确的物品：自动驾驶的引导性语义凝视

Looking at the right stuff: Guided semantic-gaze for autonomous driving

Anwesan Pal, Sayan Mondal, Henrik I. Christensen

TL;DR该论文提出了一种基于场景语义和注视信息相结合的自动驾驶注意力预测方法 SAGE，并通过修改自动驾驶的关键预测参数，设计了一个完整的预测框架 SAGE-Net，实验证明 SAGE 在不增加计算量的情况下，可以优于现有技术 87.5% 的案例。

Abstract

In recent years, predicting driver's focus of attention has been a very active area of research in the autonomous driving community. Unfortunately, existing state-of-the-art techniques achieve this by relying only on human gaze information, thereby ignoring →

autonomous driving attention prediction scene semantics sage-net saliency prediction

发现论文，激发创造

理解和建模任务与环境对驾驶员注视分配的影响

驾驶员注意力、注视预测、任务和环境、显著性和 DR (eye) VE 数据集是该研究的主要关键词和研究领域。

Oct, 2023

CUEING：一项为自动驾驶编码人类凝视的先驱工作

该论文提出了一种自适应的方法来清洗现有的人类凝视数据集，并提出了一个健壮的卷积自我注意凝视预测模型，实验证明我们的清洗方法和模型能够显著提高 ADS 性能和泛化能力。

May, 2023

驾驶员注意力跟踪和分析

我们提出了一种使用安装在车辆挡风玻璃和仪表盘上的普通摄像头来估计驾驶员凝视点的新方法。该方法通过开发一种卷积网络来同时分析场景图像和驾驶员面部图像，其中包含一个相机校准模块，可以计算表示驾驶员和摄像头系统之间空间配置的嵌入向量，该模块改善了网络的性能并可以进行端到端的联合训练。我们还引入了一种大规模的驾驶数据集，其中包含了真实驾驶情景的图像以及驾驶员面部和凝视数据，对该数据集的实验表明，所提出的方法优于各种基准方法，均方误差为 29.69 像素，相对于场景摄像头的 $1280 {imes} 720$ 分辨率而言，误差较小。

Apr, 2024

高级驾驶辅助系统中的视觉显著性检测

我们提出了一种结合司机困倦检测系统和基于显著性的场景理解流水线的智能系统，该系统在嵌入式平台上运行，并利用专用 3D 深度网络进行语义分割。我们还使用车辆方向盘上嵌入的创新生物传感器来监测驾驶员的困倦程度，并对收集到的驾驶员脉搏波信号进行分类，从而评估驾驶员的注意力水平。最后，我们将司机的注意力水平与基于显著性的场景分类进行比较，以评估整体安全水平。通过广泛的实验结果验证了该流水线的有效性。

Jul, 2023

引导端到端驾驶模型的注意力

通过使用显著语义地图进行训练期间添加损失项，引导注意力可以改善自动驾驶模型的驾驶质量，并获得更直观的激活图，特别是在数据和计算资源有限的情况下。

Apr, 2024

预测驾驶员的注意力焦点：DR (eye) VE 项目

本文旨在预测驾驶员的注意力集中情况，提出了一种基于多分支深度架构的计算机视觉模型，集成了三种信息源：原始视频、动态和场景语义，并介绍了 DR (eye) VE，这是迄今为止最大的驾驶场景数据集，结果强调了跨驾驶员共享的注意力模式，可在人车交互和驾驶员注意力分析等多个应用方面受益。

May, 2017

SCOUT+: 实现实际任务驱动的驾驶员注视预测

精确预测驾驶员的凝视是基于视觉的驾驶员监控和辅助系统的重要组成部分，本文介绍了一种使用 GPS 数据对任务和环境进行建模的驾驶员凝视预测模型 SCOUT+，并证明了其相对于底层模型和顶层模型 SCOUT 在两个数据集上的改进效果。

Apr, 2024

SalGaze: 使用视觉显著性个性化注视点估计

提出 SalGaze，一种利用视觉内容中的显著性信息，无需显式用户校准，可透明地适应用户注视估计算法的框架，能够使用与标准点校准数据不同的显式视频显著性校准数据的统一框架，优于现有方法，精度提高了 24%。

Oct, 2019

车载环境中的全面视觉解决方案：车内凝视估计

该研究使用 IVGaze 数据集，提出了一种车内注视估计方法并引入了新的注视金字塔变换器和双流注视金字塔变换器，展示了目前最先进的表现，并探索了注视区域分类的新策略。

Mar, 2024

与人类视线互动的神经图像字幕生成

通过研究人类注视和深度神经网络注意力机制之间的相互作用，我们提出了一种新的注视辅助图像字幕模型，将人的注视信息集成到基于注意力的 LSTM 结构中，能够将算法选择性地分配到注视和非注视的图像区域，这种方法通过对 COCO / SALICON 数据集的评估，显示了我们方法改善了图像字幕性能，并且注视可以补充机器的注意力，提高了语义场景理解的任务。

Aug, 2016