通过证据交互融合实现跨数据集注视估计
本文针对外界复杂的实际应用场景下的视线估计问题,在自然、真实的使用环境中使用MPIIGaze数据集进行研究,并提出了一种多模态卷积神经网络的方法,通过跨数据集评估证明该方法显著优于现有的方法。我们还对三个最新数据集上的几种最先进的基于图像的凝视估计算法进行了细致评估,确认了外部环境变化对凝视估计的影响,为实际的实时视线估计研究提供了重要的参考。
Apr, 2015
我们提出了MPIIGaze,包括213659个人的实验数据,并对现有的三个数据集进行了广泛的评估,研究了目标视线范围、光照条件和面部外观变化等关键挑战,提出了第一种深度外观估计方法GazeNet,并将平均误差从13.9度提高到10.8度,这是当前技术水平的改进。
Nov, 2017
本文介绍了一种基于差分方法的凝视估计技术,使用差分卷积神经网络直接预测同一受试者的两个眼睛输入图像之间的凝视差异,然后利用推断出的差异来预测新眼睛样本的凝视方向。实验结果表明,该方法即使只使用一个校准样本或在后续使用受试者特定的凝视适应方法时,也始终优于现有的方法。
Apr, 2019
本文介绍了一个新的注视估计数据集ETH-XGaze,其中包含超过一百万个高分辨率的图像,记录了各种头部姿态下注视点的位置,为今后的注视估计研究提供了统一的实验协议和评估指标。
Jul, 2020
本文提出了一种针对凝视估计中的跨领域问题的域通用化方法,通过凝视特征净化,消除光照和身份等与凝视无关的因素,不仅极大地改善了我们的基准模型,还直接显著提高了现有凝视估计方法的性能。
Mar, 2021
本文提出了一个基于对比学习方法的简单的凝视估计学习框架——GazeCLR, 其中利用多视图数据促进等价变换,并使用选定的数据增强技术进行不变性学习。实验结果表明,GazeCLR在多个凝视估计任务和few-shot评估上都取得了显著的效果,并与最先进的表示学习方法相当。
Oct, 2022
利用外观为基础的凝视估计具有很大潜力,通过使用单个通用摄像头作为输入设备,但是在很大程度上取决于大规模且经过良好注释的凝视数据集的可用性,这种数据集是稀缺且昂贵的。为了解决这个挑战,我们提出了一种基于对比学习的框架ConGaze,该框架利用未标记的面部图像以无监督的方式跨主体学习通用的凝视感知表示。我们的实验证明ConGaze在三个公共凝视估计数据集上胜过现有的无监督学习解决方案6.7%至22.5%;并且在跨数据集评估中相对于基于监督学习的模型,取得了15.1%至24.6%的改进。
Sep, 2023
通过引入支离破碎辅助正则化(Branch-out Auxiliary Regularization,BAR)方法,提升注视估计的泛化能力,无需对目标域数据进行直接访问,通过整合两个辅助一致性正则化方法,增强核心网络的能力并易于适应其他模型,实验证明该方法在四个跨数据集任务中具有卓越优势。
May, 2024
本研究针对现有基于外观的视线估计方法在合并多个数据集时性能提升不足的问题,提出了两项创新:采用两阶段变换器的视线特征融合方法和视线适应模块。研究表明,这些方法能有效提升视线估计性能,改善了系统在面对头部姿态变化时的鲁棒性,并解决了标签不一致的问题,性能提升幅度可达10%至20%。
Sep, 2024