去噪蒸馏改进的事件框架变换器用于准确的凝视跟踪

Mar, 2024

去噪蒸馏改进的事件框架变换器用于准确的凝视跟踪

Denoising Distillation Makes Event-Frame Transformers as Accurate Gaze Trackers

Jiading Li, Zhiyu Zhu, Jinhui Hou, Junhui Hou, Jinjian Wu

TL;DR本研究利用事件数据和帧数据解决了被动凝视估计问题，通过量化当前状态到之前注册的锚定状态的状态转换，通过两阶段学习的凝视估计框架以粗到精的方式进行锚定状态选择和最终凝视位置估计，通过引入去噪扩散算法改善泛化能力，并通过大量实验证明该方法的有效性，显著超过15%的现有方法。

Abstract

This paper tackles the problem of passive gaze estimation using both event and frame data. Considering inherently different physiological structures, it's intractable to accurately estimate purely based on a give

发现论文，激发创造

基于外观的凝视估计的偏移校准：凝视分解

使用新型凝视分解方法和单凝视点校准方法，该文提出了一种改进估算凝视点的方法，采用深度卷积网络估算凝视角度的主体独立项，实验结果表明，在消除校准的情况下，所提方法比现有技术的表现好100％，而通过仅仅使用少量图像校准，误差可以减少多达35.6％，达到了最先进的标准。

May, 2019

Gaze-in-wild：一个用于研究日常活动中眼睛和头部协作的数据集

通过收集GW数据集（该数据集包括眼部运动、头部角速度、眼睛和场景图像），训练和评估了两种机器学习算法（随机森林和递归神经网络模型），用于眼睛运动分类（如注视、眼球、追踪）。分类器实现了近似于人类检测注视和眼球运动的90％的性能，但在检测追踪运动时则低于60％，并且追踪分类在没有头部运动信息的情况下更低。最佳模型对特征的显着性分析显示，分类不需要头部和眼睛跟踪坐标系的空间对齐。

May, 2019

PureGaze：用于通用注视估计的纯净注视特征

本文提出了一种针对凝视估计中的跨领域问题的域通用化方法，通过凝视特征净化，消除光照和身份等与凝视无关的因素，不仅极大地改善了我们的基准模型，还直接显著提高了现有凝视估计方法的性能。

Mar, 2021

FreeGaze: 基于频域对比学习的资源有效的凝视估计

FreeGaze是一种资源高效的框架，它结合了频域注视估计和对比注视表示学习，以实现无监督的注视表示学习，并通过减轻计算负担和克服数据标签障碍来提高计算效率和精度。

Sep, 2022

弥合鸿沟：凝视事件作为可解释概念解释深度神经序列模型

本研究旨在通过使用现有的凝视事件检测算法定量评估比较眼球运动中其不同成分的影响，从而展示Saccades事件对于数据集中输入特征的显著重要性，并通过使用Saccades的子事件进一步研究样本的速度对于概念的影响。

Apr, 2023

扩散模型在光流和单目深度估计中的惊人有效性

本文展示了使用去噪扩散概率模型进行单目 depth 和 optical flow 估计，通过 Monte Carlo 推理，结合了自监督预训练和合成和真实数据的监督训练，能够在去噪和缺陷数据方面提供技术创新，以及对于不确定性和多模态的处理能力等方面都能取得最先进的效果。DDVM 是本文中提出的模型，相对深度误差为 0.074，比最佳发布方法的 Fl-all outlier rate 高 25%。

Jun, 2023

GazeMoDiff：基于凝视引导的扩散模型用于随机人体运动预测

人类动作预测是虚拟现实（VR）应用中的重要问题，本论文提出了一种新的注视引导去噪扩散模型（GazeMoDiff），通过学习眼球注视和人体运动之间的时空相关性，生成逼真的人体运动，实验证明本方法在平均位移误差上超过了现有方法。

Dec, 2023

GazeMotion: 凝视引导的人体动作预测

GazeMotion是一种结合过去人体姿势和人眼注视信息进行人体动作预测的新方法，通过预测未来眼睛注视点并将其与过去的姿势融合成注视-姿势图，再利用残差图卷积网络预测身体运动。在多个基准数据集的评估中，我们的方法在关节位置误差的平均改进上超过了最先进的方法7.4％。即使使用头部方向作为眼睛注视的替代，我们的方法的平均改进率也达到了5.5％。我们还通过在线用户研究展示了我们方法在感知逼真度方面超过之前方法的结果。这些结果展示了眼睛注视在人体动作预测中的重要信息内容以及我们方法在利用这些信息方面的有效性。

Mar, 2024

DiffGaze: 360度图像上连续注视序列生成的扩散模型

DiffGaze是一种基于条件评分的去噪扩散模型，用于在360度图像上生成逼真而多样化的连续人类注视序列。该方法在生成人类注视时考虑了时间和空间相关性，并在注视序列的生成、扫描路径预测和显著性预测任务上表现出优于现有方法的性能。

Mar, 2024

通过分支辅助规则改善注视估计中的领域通用化

通过引入支离破碎辅助正则化（Branch-out Auxiliary Regularization，BAR）方法，提升注视估计的泛化能力，无需对目标域数据进行直接访问，通过整合两个辅助一致性正则化方法，增强核心网络的能力并易于适应其他模型，实验证明该方法在四个跨数据集任务中具有卓越优势。

May, 2024