基于视频的端到端眼动追踪技术

ECCVJul, 2020

Towards End-to-end Video-based Eye-Tracking

Seonwook Park, Emre Aksan, Xucong Zhang, Otmar Hilliges

TL;DR提出了一种利用视频数据集和图像相结合的方法，通过学习用户注视与眼部外形之间的联系来提高眼动追踪的精度，实现基于网络摄像头的高准确度屏幕眼动追踪，不需要标记的数据并且通过视觉刺激和眼部图像信息融合可以达到监督式个性化的效果。

Abstract

Estimating eye-gaze from images alone is a challenging task, in large parts due to un-observable person-specific factors. Achieving high accuracy typically requires labeled data from test users which may not be attainable in real applications. We observe that there exists a strong rela

eye-gaze dataset gaze tracking visual stimuli webcam

发现论文，激发创造

MPIIGaze: 实际场景数据集与深度外貌取向估计

我们提出了 MPIIGaze，包括 213659 个人的实验数据，并对现有的三个数据集进行了广泛的评估，研究了目标视线范围、光照条件和面部外观变化等关键挑战，提出了第一种深度外观估计方法 GazeNet，并将平均误差从 13.9 度提高到 10.8 度，这是当前技术水平的改进。

Nov, 2017

信不信由你，我们知道你在看什么！

本文提出了一种基于人类凝视追踪思路的两阶段解决方案，集成了神经网络和数据集，有效地预测并追踪目标人物的目光方向，且经过大量实验证明，该方案相对于现有解决方案有明显优势。

Jul, 2019

观者视角下的注视和行为：第一人称视频

该研究旨在使用头戴式相机捕获的视频，基于人的动作和视线方向，开发一种新的深度学习模型，能够在 First Person Vision（第一人称视角）环境下进行准确的行动识别，并在 EGTEA Gaze+ 数据集上超越了当前技术水平。

May, 2020

Panonut360：用于全景视频的头部和眼球跟踪数据集

通过开发头部和眼部跟踪数据集，本研究揭示了在多个用户和视频的实验设置中，眼球注视相对视野下方固定位置的一致偏移现象，从而挑战了视野中心位置的注视注意力按照高斯分布递减的广泛假设，并提供了根据给定头部或眼部坐标和预生成的视频注视分布图集生成注视分布的脚本。

Mar, 2024

基于外观的注视估计，使用深度神经网络增强的合成图像

使用人工神经网络建立了一个模块化系统，通过对分别裁剪的眼睛进行估计，利用人脸检测和头部姿势估计组件，无需特殊硬件或红外滤光片，仅使用内置 RGB 相机进行人眼注视估计，通过包含大量合成数据集在训练模型中，达到了比相关方法更高的准确度。

Nov, 2023

弱监督的物理无约束凝视估计

本研究针对自然场景下获取三维凝视注释的挑战进行了探讨，提出了一种基于 LAEO 标签的弱监督凝视估计算法，该算法通过训练算法和损失函数实现了可行的三维凝视监督，结果表明，这种方法对于半监督凝视估计的准确性和跨域泛化的改进方面取得了显着的进展。

May, 2021

Gaze360: 野外物理无约束凝视估计

该研究提供了 Gaze360 数据集和方法，可以在不受限制的图像中进行强大的三维凝视估计，通过时间信息扩展了现有模型，直接输出凝视不确定性的评估，并展示了在不同的凝视基准数据集上推广的性能，最后，在超市环境中应用该模型可用于评估客户的注意力。

Oct, 2019

特定应用的半合成数据集增强用于凝视估计

通过生成面部的纹理三维网格，并从特定位置和方向的虚拟相机渲染训练图像作为现有数据集的补充方式，可以在目标特定任务中取得更好的推广效果，平均减少了 47% 的注视角度误差。

Oct, 2023

半监督对比回归用于眼球注视估计

通过使用半监督对比学习框架，本文提出了一种新的对比损失范式，从而实现了基于注视方向的估计，该框架在使用少量带有标签的注视数据集时，可以找到泛化解决方案，即使对于未见过的人脸图像也能有良好的性能表现，与其他用于注视估计的最先进对比学习技术相比，我们的对比回归框架表现良好。

Aug, 2023

视觉体验数据集：超过 200 小时的集成眼动、里程计和自我中心视频记录

介绍 Visual Experience Dataset（VEDB）：一个由超过 240 小时的自我感知视频结合注视和头部追踪数据组成的数据集，提供了人类观察者在视觉世界中的前所未有的体验。该数据集包含 717 个会话，由 58 名 6-49 岁的观察者记录。介绍数据收集、处理和标记协议，讨论数据集内潜在的错误或偏差来源。VEDB 的应用潜力广泛，包括改进注视追踪方法、评估时空图像统计数据以及优化场景和活动识别的深度神经网络。VEDB 可以通过已建立的开放科学平台访问，旨在成为一个持续更新的数据集，并鼓励社区贡献。数据集强调了参与者隐私和减轻潜在偏差等伦理考虑。通过提供基于真实世界经验的数据集，并附有丰富的元数据和支持代码，作者邀请研究社区利用和贡献 VEDB，以促进对自然环境中视觉感知和行为的更深入理解。

Feb, 2024