使用 9 方向注视估计实现高效眼动输入

Jul, 2017

使用 9 方向注视估计实现高效眼动输入

Efficient Eye Typing with 9-direction Gaze Estimation

Chi Zhang, Rui Yao, Jinpeng Cai

TL;DR本文提出了一种效率高、成本低、具有鲁棒性的新型注视输入法，使用人们的注视方向和眨眼来输入文本，并使用卷积神经网络模型进行 9 个方向注视估计。该输入法可在屏幕模式和便携离屏模式下运行，适用于视力残疾的人群。

Abstract

Vision based text entry systems aim to help disabled people achieve text communication using eye movement. Most previous methods have employed an existing eye tracker to predict gaze direction and design an input method based upon that. However, these methods can result in eye tracking quality becoming easily affected by various factors and lengthy amounts o

vision-based text entry systems gaze tracking convolutional neural network t9 input method disability support

发现论文，激发创造

使用卷积神经网络进行实时眼球注视方向分类

提出实时框架及卷积神经网络用于分类人眼凝视方向和评估眼部访问线索，并使用改进的 Viola-Jones 算法检测人脸，通过几何关系和面部特征点得到眼部区域，并进行逐帧测试以获得平均帧速率 24fps，结果显示其优于现有方法。

May, 2016

实时网络摄像头注视追踪的高效性

本文研究了凝视跟踪中的两种效率：计算效率和可用性效率，并评估了 CNN 网络的推断速度 / 准确性与屏幕校准的精度 / 烦琐程度之间的平衡，结果表明单眼输入和几何回归校准方法达到了最佳平衡。

Sep, 2020

辅助生活环境下的凝视估计

本文提出了一种基于单个姿态估计模型采集的面部关键点的相对位置来估计个体注视方向的神经网络回归器，结合目标遮挡情况下的置信度门控单元，实现了对复杂辅助生活环境中居民与周围物体互动的自动推理；实验结果表明，该模型与数据集特定的复杂基线模型相媲美。

Sep, 2019

与人类视线互动的神经图像字幕生成

通过研究人类注视和深度神经网络注意力机制之间的相互作用，我们提出了一种新的注视辅助图像字幕模型，将人的注视信息集成到基于注意力的 LSTM 结构中，能够将算法选择性地分配到注视和非注视的图像区域，这种方法通过对 COCO / SALICON 数据集的评估，显示了我们方法改善了图像字幕性能，并且注视可以补充机器的注意力，提高了语义场景理解的任务。

Aug, 2016

眼神追踪估计模型分析

探讨了利用机器学习技术进行眼部凝视估计的技术，论文中提出了在不受限制的场景下，通过使用眼部地标来预测凝视方向的方法，并讨论了采用合成数据进行眼部地标本地化训练的学习方法，并提出了使用该模型进行个性化凝视估计的方法。

Jul, 2022

深度图像注视估计

介绍了一种专门设计用于单眼输入的注视估计任务的新型深度神经网络架构，通过回归中间图像表示来简化三维注视方向估计任务，定量和定性结果表明该方法比现有技术实现了更高的精度，且对视线、头部姿势和图像质量的变化具有鲁棒性。

Jul, 2018

利用外貌和形状线索的 3D 凝视估计的循环卷积神经网络

本论文使用多模态卷积神经网络在远程摄像机中完成了独立于人物和头部姿态的三维凝视估计。通过将人脸，眼睛区域和面部标志作为神经网络中的单个流来估计静态图像中的凝视。随后，利用凝视的动态特性，将所有帧的学习特征馈送到多到一循环模块，以预测最后一帧的三维凝视向量，其在多种头部姿态和凝视方向上获得了显著的改进。

May, 2018

半监督对比回归用于眼球注视估计

通过使用半监督对比学习框架，本文提出了一种新的对比损失范式，从而实现了基于注视方向的估计，该框架在使用少量带有标签的注视数据集时，可以找到泛化解决方案，即使对于未见过的人脸图像也能有良好的性能表现，与其他用于注视估计的最先进对比学习技术相比，我们的对比回归框架表现良好。

Aug, 2023

基于外观的注视估计，使用深度神经网络增强的合成图像

使用人工神经网络建立了一个模块化系统，通过对分别裁剪的眼睛进行估计，利用人脸检测和头部姿势估计组件，无需特殊硬件或红外滤光片，仅使用内置 RGB 相机进行人眼注视估计，通过包含大量合成数据集在训练模型中，达到了比相关方法更高的准确度。

Nov, 2023

利用人类注视数据监督视频字幕生成神经注意模型

本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能，通过提出一种名为 GEAN 的视频字幕模型，并采用人眼注视追踪数据来提供生成句子的时空注意力，以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估，证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能，并展示了该方法在 VAS 数据集和标准数据集（如 LSMDC 和 Hollywood2）中实现了领先的性能，成为最先进的视频字幕生成方法。

Jul, 2017