使用 9 方向注视估计实现高效眼动输入
提出实时框架及卷积神经网络用于分类人眼凝视方向和评估眼部访问线索,并使用改进的 Viola-Jones 算法检测人脸,通过几何关系和面部特征点得到眼部区域,并进行逐帧测试以获得平均帧速率 24fps,结果显示其优于现有方法。
May, 2016
本文研究了凝视跟踪中的两种效率:计算效率和可用性效率,并评估了 CNN 网络的推断速度 / 准确性与屏幕校准的精度 / 烦琐程度之间的平衡,结果表明单眼输入和几何回归校准方法达到了最佳平衡。
Sep, 2020
本文提出了一种基于单个姿态估计模型采集的面部关键点的相对位置来估计个体注视方向的神经网络回归器,结合目标遮挡情况下的置信度门控单元,实现了对复杂辅助生活环境中居民与周围物体互动的自动推理;实验结果表明,该模型与数据集特定的复杂基线模型相媲美。
Sep, 2019
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016
探讨了利用机器学习技术进行眼部凝视估计的技术,论文中提出了在不受限制的场景下,通过使用眼部地标来预测凝视方向的方法,并讨论了采用合成数据进行眼部地标本地化训练的学习方法,并提出了使用该模型进行个性化凝视估计的方法。
Jul, 2022
介绍了一种专门设计用于单眼输入的注视估计任务的新型深度神经网络架构,通过回归中间图像表示来简化三维注视方向估计任务,定量和定性结果表明该方法比现有技术实现了更高的精度,且对视线、头部姿势和图像质量的变化具有鲁棒性。
Jul, 2018
本论文使用多模态卷积神经网络在远程摄像机中完成了独立于人物和头部姿态的三维凝视估计。通过将人脸,眼睛区域和面部标志作为神经网络中的单个流来估计静态图像中的凝视。随后,利用凝视的动态特性,将所有帧的学习特征馈送到多到一循环模块,以预测最后一帧的三维凝视向量,其在多种头部姿态和凝视方向上获得了显著的改进。
May, 2018
通过使用半监督对比学习框架,本文提出了一种新的对比损失范式,从而实现了基于注视方向的估计,该框架在使用少量带有标签的注视数据集时,可以找到泛化解决方案,即使对于未见过的人脸图像也能有良好的性能表现,与其他用于注视估计的最先进对比学习技术相比,我们的对比回归框架表现良好。
Aug, 2023
使用人工神经网络建立了一个模块化系统,通过对分别裁剪的眼睛进行估计,利用人脸检测和头部姿势估计组件,无需特殊硬件或红外滤光片,仅使用内置 RGB 相机进行人眼注视估计,通过包含大量合成数据集在训练模型中,达到了比相关方法更高的准确度。
Nov, 2023
本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能,通过提出一种名为 GEAN 的视频字幕模型,并采用人眼注视追踪数据来提供生成句子的时空注意力,以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估,证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能,并展示了该方法在 VAS 数据集和标准数据集(如 LSMDC 和 Hollywood2)中实现了领先的性能,成为最先进的视频字幕生成方法。
Jul, 2017