利用眼动追踪来增强模仿网络在未知环境中的泛化能力
该论文提出了一种自适应的方法来清洗现有的人类凝视数据集,并提出了一个健壮的卷积自我注意凝视预测模型,实验证明我们的清洗方法和模型能够显著提高 ADS 性能和泛化能力。
May, 2023
使用人工神经网络建立了一个模块化系统,通过对分别裁剪的眼睛进行估计,利用人脸检测和头部姿势估计组件,无需特殊硬件或红外滤光片,仅使用内置 RGB 相机进行人眼注视估计,通过包含大量合成数据集在训练模型中,达到了比相关方法更高的准确度。
Nov, 2023
该研究探讨了人类在机器人示范任务中的凝视模式,提出了如何利用这些模式来增强机器人的学习,进而提出了两种基于凝视数据的算法,并证明了这些凝视数据可以提高多步骤任务的子任务分类达 6%,提高单步任务的奖励推断和策略学习达 67%。
Jul, 2019
基于眼动追踪数据的视频分析自动化是一个重要的任务。本文提出了一种基于转换器增强学习算法的模拟人类视线行为的新方法,通过观看视频并模拟人类注视行为,该方法能有效地复制人类注视行为并应用于实际任务。
Apr, 2024
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016
本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能,通过提出一种名为 GEAN 的视频字幕模型,并采用人眼注视追踪数据来提供生成句子的时空注意力,以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估,证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能,并展示了该方法在 VAS 数据集和标准数据集(如 LSMDC 和 Hollywood2)中实现了领先的性能,成为最先进的视频字幕生成方法。
Jul, 2017
通过使用半监督对比学习框架,本文提出了一种新的对比损失范式,从而实现了基于注视方向的估计,该框架在使用少量带有标签的注视数据集时,可以找到泛化解决方案,即使对于未见过的人脸图像也能有良好的性能表现,与其他用于注视估计的最先进对比学习技术相比,我们的对比回归框架表现良好。
Aug, 2023
我们提出了一种使用安装在车辆挡风玻璃和仪表盘上的普通摄像头来估计驾驶员凝视点的新方法。该方法通过开发一种卷积网络来同时分析场景图像和驾驶员面部图像,其中包含一个相机校准模块,可以计算表示驾驶员和摄像头系统之间空间配置的嵌入向量,该模块改善了网络的性能并可以进行端到端的联合训练。我们还引入了一种大规模的驾驶数据集,其中包含了真实驾驶情景的图像以及驾驶员面部和凝视数据,对该数据集的实验表明,所提出的方法优于各种基准方法,均方误差为 29.69 像素,相对于场景摄像头的 $1280 {imes} 720$ 分辨率而言,误差较小。
Apr, 2024
本文提出了一种使用基于 Transformer 的自注意力结构实现眼神预测,以实现具有记忆的机器人操作任务的算法。通过将机器人视觉输入的连续序列作为输入,该算法能够通过使用传统的深度模仿学习方法并结合眼动预测来实现多物体操作任务。实验结果表明,该方法成功地改善了机器人在具有记忆要求的复杂环境中的操作表现。
Feb, 2022