通过捕捉头部 - 面部 - 眼睛空间 - 时间交互上下文的端到端视频凝视估计

Oct, 2023

通过捕捉头部 - 面部 - 眼睛空间 - 时间交互上下文的端到端视频凝视估计

End-to-end Video Gaze Estimation via Capturing Head-face-eye Spatial-temporal Interaction Context

Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, Yang Xiao

TL;DR我们提出了一种新的方法，Multi-Clue Gaze (MCGaze)，通过在头部、面部和眼睛之间捕捉空间 - 时间交互上下文，以端到端的学习方式促进视频凝视估计，从而实现头部、面部和眼睛的线索定位任务在一个步骤中解决，并通过联合优化寻求最佳性能。

Abstract

In this letter, we propose a new method, multi-clue gaze (MCGaze), to facilitate video gaze estimation via capturing spatial-temporal interaction

multi-clue gaze video gaze estimation spatial-temporal interaction clue localization gaze360 dataset

发现论文，激发创造

利用外貌和形状线索的 3D 凝视估计的循环卷积神经网络

本论文使用多模态卷积神经网络在远程摄像机中完成了独立于人物和头部姿态的三维凝视估计。通过将人脸，眼睛区域和面部标志作为神经网络中的单个流来估计静态图像中的凝视。随后，利用凝视的动态特性，将所有帧的学习特征馈送到多到一循环模块，以预测最后一帧的三维凝视向量，其在多种头部姿态和凝视方向上获得了显著的改进。

May, 2018

GazeOnce: 实时多人凝视估计

本研究提出一种新的单阶段端到端注视估计方法，可同时预测图像中多个面孔（>10）的注视方向，并使用 MPSGaze 数据集验证了该方法的有效性和易用性，为实时应用提供支持。

Apr, 2022

跨领域多模态凝视目标检测

本研究讨论了单幅图像的凝视目标检测问题，提出了使用多模态深度架构来推断场景中人物的注视位置的方法，并考虑了不同数据集之间的领域适应。

Aug, 2022

基于视频的端到端眼动追踪技术

提出了一种利用视频数据集和图像相结合的方法，通过学习用户注视与眼部外形之间的联系来提高眼动追踪的精度，实现基于网络摄像头的高准确度屏幕眼动追踪，不需要标记的数据并且通过视觉刺激和眼部图像信息融合可以达到监督式个性化的效果。

Jul, 2020

EFE: 端到端的帧到凝视估计

该论文提出了一种基于帧的直接预测 3D 注视原点和 3D 注视方向的网络，在三个公共焦点数据集上实现了可比较的结果。

May, 2023

MPIIGaze: 实际场景数据集与深度外貌取向估计

我们提出了 MPIIGaze，包括 213659 个人的实验数据，并对现有的三个数据集进行了广泛的评估，研究了目标视线范围、光照条件和面部外观变化等关键挑战，提出了第一种深度外观估计方法 GazeNet，并将平均误差从 13.9 度提高到 10.8 度，这是当前技术水平的改进。

Nov, 2017

面部表情全貌外观定位注视估计

提出了一种全称人脸输入的外观识别方法，使用卷积神经网络对面部图像进行编码，应用于 2D 和 3D 注视估计中实现了重大的性能提升，对于极端头部姿势尤其明显。

Nov, 2016

混合现实环境中研究协作交互的 3D 凝视跟踪

本研究提出一种新颖的针对混合现实环境的三维凝视追踪框架，旨在增强团队协作和共同注意力，通过利用计算机视觉和机器学习技术，实现精确的三维凝视估计，无需依赖专用硬件或复杂的数据融合，在组环境中追踪凝视模式，解决常见深度估计误差，保证数据集的空间和身份的一致性，实证结果展示了我们方法在群组环境中的准确性和可靠性，为在动态和非结构化环境中的教育和专业培训应用中的行为和互动分析提供了推动机制。

Jun, 2024

基于学习的新颖视角合成的全脸外貌的基于 3D 凝视估计

本研究提出了基于单目三维面部重建的合成凝视估计训练数据的新方法，利用投影匹配过程，配合掩码引导凝视估计模型和数据增强策略，显著提高了在具有非重叠凝视分布的跨数据集环境下的估计性能。

Jan, 2022

个性化视频视线估计的时空注意力和高斯过程

使用深度学习模型和专门的注意力模块，通过视频实现准确的注视方向预测，并且通过个性化处理和少量样本获得更高的精度。

Apr, 2024