RITnet: 眼睛注视跟踪的实时语义分割
DeepFix是一种全新的卷积神经网络,可用于准确地预测显著性图,并集成了多尺度语义和全局上下文,并通过引入Location Biased卷积层来解决空间不变性问题,其表现优越。
Oct, 2015
我们提出了MPIIGaze,包括213659个人的实验数据,并对现有的三个数据集进行了广泛的评估,研究了目标视线范围、光照条件和面部外观变化等关键挑战,提出了第一种深度外观估计方法GazeNet,并将平均误差从13.9度提高到10.8度,这是当前技术水平的改进。
Nov, 2017
该篇论文提出了一种基于卷积神经网络的注意力编码器-解码器网络模型,用于迅速高效地对眼睛各部分进行分割,包括巩膜、虹膜、瞳孔和背景,取得了较好的结果。
Oct, 2019
本文提出了一种多类眼部分割方法,包括三个主要阶段:通过深度网络从输入获取灰度图像、分割三个不同的眼部区域,并通过启发式过滤器去除不正确的区域,使用 depthwise 卷积操作减少计算成本,实验表明该方法可以在实时推理下实现高水平的性能。
Nov, 2019
本文介绍了一种新颖的多流网络,学习了强健的眼部表示形式以进行凝视估计,并使用模拟器创建了合成数据集来进行眼部区域分割,并进行自监督对比学习来为真实世界的眼部图像预训练编码器,最终通过多流框架从真实世界中提取显著特征以进行凝视估计,在两种不同的评估设置下展示了方法的性能,在 EYEDIAP 数据集上超越了所有已有的基准,并进行了额外实验以验证自监督网络对于不同数量的标记数据的鲁棒性。
Dec, 2021
通过调整 ResNet 结构的几个简单参数,我们在三个常用数据集上实现了目光估计任务的最先进性能,其中 ETH-XGaze 上的误差为 3.64,MPIIFaceGaze 上的误差为 4.50,Gaze360 上的误差为 9.13。
Aug, 2023
通过使用简单的光线分布模拟眼睛的关键图像特征,Light Eyes(LEyes)框架能够通过多样的凝视估计任务来令神经网络训练更容易配置,从而解决了深度学习在目光估计方面的问题。LEyes训练的模型在瞳孔和眼角膜反射定位方面在众所周知的数据集上优于其他最先进的算法,并且通过使用更具成本效益的硬件,该模型的性能也超过了工业标准的眼动仪。未来,我们有信心LEyes将革新用于凝视估计模型的合成数据生成,并带来下一代基于视频的眼动仪的显著改进。
Sep, 2023
使用弱监督的眼部语义分割掩码和少量三维注视向量,结合基于Transformer的网络架构,提出一种新方法来预测3D眼部注视,取得了与基线相比约5度较低的角度注视误差。
Nov, 2023
使用降维技术衡量目标眼睛图像和合成训练数据之间的重叠,并修剪训练数据集以最大化分布重叠,从而解决模拟和实际数据样本之间的差异,从而实现鲁棒的、改善的性能。
Mar, 2024
通过眼神注视作为一种高效的注释方法,我们提出了一种用于医学图像分割的多级框架,利用具有鉴别性的人类注意力进行训练,并通过交叉级别一致性来减小注视噪声,实现对模型的正则化,从而在性能和注释时间方面优于之前的注释方案。
Jul, 2024