通过融合全局信息的轻量级注视估计模型
我们提出了MPIIGaze,包括213659个人的实验数据,并对现有的三个数据集进行了广泛的评估,研究了目标视线范围、光照条件和面部外观变化等关键挑战,提出了第一种深度外观估计方法GazeNet,并将平均误差从13.9度提高到10.8度,这是当前技术水平的改进。
Nov, 2017
通过采用扩张卷积来提取高分辨率特征,以改善眼睛图像在显著变化下的精确度,我们提出了Dilated-Net模型,它在两个Gaze估计数据集上都取得了最先进的结果,相比不使用扩张卷积的类似网络获得了显著提高(高达20.8%)。
Mar, 2019
本文介绍了一种基于差分方法的凝视估计技术,使用差分卷积神经网络直接预测同一受试者的两个眼睛输入图像之间的凝视差异,然后利用推断出的差异来预测新眼睛样本的凝视方向。实验结果表明,该方法即使只使用一个校准样本或在后续使用受试者特定的凝视适应方法时,也始终优于现有的方法。
Apr, 2019
本文提出了一种基于面部和眼睛图像的凝视估计方法,利用粗-细策略从面部图像中估计基本凝视方向,通过相应的眼部图像预测残差进行细化,引入bi-gram模型和注意力组件来适应性地获取细粒度特征,实现了MPIIGaze和EyeDiap数据集上的最优表现。
Jan, 2020
本文基于深度学习方法综述了当前外貌为基础的凝视估计技术。介绍了数据预处理和后处理方法,将所有公开数据集进行了特征化,并设置了评估准则。本研究提供了参考,可供深度学习或未来凝视估计研究使用。
Apr, 2021
文章提出了一种名为 FR-Net 的轻量级模型,利用快速傅里叶变换(FFT)从频域提取注视相关特征并减少参数数量,同时引入空间域的快捷方式组件进一步提高了模型的准确性,实验结果表明,相较于现有方法,该方法具有更高的准确性和效率,并适用于人机交互和驾驶员辅助系统等领域。
May, 2023
通过调整 ResNet 结构的几个简单参数,我们在三个常用数据集上实现了目光估计任务的最先进性能,其中 ETH-XGaze 上的误差为 3.64,MPIIFaceGaze 上的误差为 4.50,Gaze360 上的误差为 9.13。
Aug, 2023
最近,外貌导向的凝视估计成功应用于计算机视觉领域,并且通过各种深度学习技术得到了显著改进。本文提出了一种名为SAZE的新框架,通过训练网络来推广主题的外观,达到一致的概率分布推理。使用面部-凝视编码器、面部身份分类器和提出的对抗性损失函数设计了Fgen-Net。实验证明该方法的稳健性,达到了MPIIGaze和EyeDiap数据集上的最新成果,分别为3.89和4.42。此外,通过使用生成模型生成的不同样式的面部图像进行进一步实验,证明了积极的推广效果。
Jan, 2024
本研究解决了轻量级模型在凝视估计任务中性能显著下降的问题,主要是由于特征通道数量不足。提出的Multitask-Gaze网络模型采用单向卷积、空间和通道注意力等新方法,提高了模型的表征能力。实验结果显示,与当前最先进的方法相比,Multitask-Gaze在MPIIFaceGaze和Gaze360数据集上分别提升了1.71%和2.75%的性能,同时参数和FLOPs大幅减少75.5%和86.88%。
Nov, 2024
本研究解决了现有注视估计方法对大规模数据集和模型的依赖带来的高计算资源需求问题。提出的轻量级模型EM-Net结合深度学习和期望最大化算法,通过全局注意机制提取相关特征,并通过EM模块学习层次特征表示,显著提高了模型的泛化能力。实验表明,在仅使用50%训练数据的情况下,EM-Net在多个数据集上的性能均有提升,同时在高斯噪声干扰下表现出良好的鲁棒性。
Dec, 2024