CUEING:一项为自动驾驶编码人类凝视的先驱工作
本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能,通过提出一种名为 GEAN 的视频字幕模型,并采用人眼注视追踪数据来提供生成句子的时空注意力,以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估,证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能,并展示了该方法在 VAS 数据集和标准数据集(如 LSMDC 和 Hollywood2)中实现了领先的性能,成为最先进的视频字幕生成方法。
Jul, 2017
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016
通过模仿学习实现基于视觉的自动驾驶,将人类驾驶员的行为模仿训练在原始驾驶员视野图像和行动数据对上,同时将眼睛的关注点信息与深度神经网络集成,以提高网络对新环境的泛化性能。
Jul, 2019
我们提出了一种使用安装在车辆挡风玻璃和仪表盘上的普通摄像头来估计驾驶员凝视点的新方法。该方法通过开发一种卷积网络来同时分析场景图像和驾驶员面部图像,其中包含一个相机校准模块,可以计算表示驾驶员和摄像头系统之间空间配置的嵌入向量,该模块改善了网络的性能并可以进行端到端的联合训练。我们还引入了一种大规模的驾驶数据集,其中包含了真实驾驶情景的图像以及驾驶员面部和凝视数据,对该数据集的实验表明,所提出的方法优于各种基准方法,均方误差为 29.69 像素,相对于场景摄像头的 $1280 {imes} 720$ 分辨率而言,误差较小。
Apr, 2024
该论文提出了一种基于场景语义和注视信息相结合的自动驾驶注意力预测方法 SAGE,并通过修改自动驾驶的关键预测参数,设计了一个完整的预测框架 SAGE-Net,实验证明 SAGE 在不增加计算量的情况下,可以优于现有技术 87.5% 的案例。
Nov, 2019
通过使用半监督对比学习框架,本文提出了一种新的对比损失范式,从而实现了基于注视方向的估计,该框架在使用少量带有标签的注视数据集时,可以找到泛化解决方案,即使对于未见过的人脸图像也能有良好的性能表现,与其他用于注视估计的最先进对比学习技术相比,我们的对比回归框架表现良好。
Aug, 2023
基于眼动追踪数据的视频分析自动化是一个重要的任务。本文提出了一种基于转换器增强学习算法的模拟人类视线行为的新方法,通过观看视频并模拟人类注视行为,该方法能有效地复制人类注视行为并应用于实际任务。
Apr, 2024
使用人工神经网络建立了一个模块化系统,通过对分别裁剪的眼睛进行估计,利用人脸检测和头部姿势估计组件,无需特殊硬件或红外滤光片,仅使用内置 RGB 相机进行人眼注视估计,通过包含大量合成数据集在训练模型中,达到了比相关方法更高的准确度。
Nov, 2023
本论文主要创新点是通过合成现有的参考样本的注视重定向眼图像来改进视线适应,并提出了一个自监督的方法进行域适应,利用视线重定向来提高特定个体视线估计的性能,通过对两个公共数据集的广泛实验证明了我们的视线重新定向和视线估计框架的有效性。
Apr, 2019