跨领域多模态凝视目标检测
本文提出了一种使用多模态线索,采用注意机制的模块化架构,以检测观察者线路中的障碍物并应用关注优先级,从而更好地实现识别和利用先验知识的方法,并在 GazeFollow 和 VideoAttentionTarget 公共数据集上展示了最先进的性能和隐私保护的竞争结果。
Jul, 2023
该研究使用基于 Transformer 的架构自动检测图像中的对象,并建立对象与注视的关联,从而实现全面的、可解释的注视分析,包括注视目标区域、注视像素点、被注视对象的类别和图像位置。该方法在各项指标上均取得了最新的成果,对于注视目标检测提高了 AUC 的达到 2.91%、注视距离减少了 50%、注视对象分类和定位平均精度提高了 11-13%,且代码可在链接中获得。
Jul, 2023
本研究提出了一个训练数据合成和注视估计模型的有效训练流程,用于无监督域自适应,包括使用单幅图像 3D 重建来扩展源域中头部姿势的范围,提出了一个自编码器网络来分离与注视相关的特征,并引入背景增强一致性损失来利用合成源域的特点,在多个目标域上进一步提高了性能。
May, 2023
本研究提出一种新的单阶段端到端注视估计方法,可同时预测图像中多个面孔(>10)的注视方向,并使用 MPSGaze 数据集验证了该方法的有效性和易用性,为实时应用提供支持。
Apr, 2022
本文提出了一种基于人类凝视追踪思路的两阶段解决方案,集成了神经网络和数据集,有效地预测并追踪目标人物的目光方向,且经过大量实验证明,该方案相对于现有解决方案有明显优势。
Jul, 2019
本论文使用多模态卷积神经网络在远程摄像机中完成了独立于人物和头部姿态的三维凝视估计。通过将人脸,眼睛区域和面部标志作为神经网络中的单个流来估计静态图像中的凝视。随后,利用凝视的动态特性,将所有帧的学习特征馈送到多到一循环模块,以预测最后一帧的三维凝视向量,其在多种头部姿态和凝视方向上获得了显著的改进。
May, 2018
我们提出了一种新的方法,Multi-Clue Gaze (MCGaze),通过在头部、面部和眼睛之间捕捉空间 - 时间交互上下文,以端到端的学习方式促进视频凝视估计,从而实现头部、面部和眼睛的线索定位任务在一个步骤中解决,并通过联合优化寻求最佳性能。
Oct, 2023
本文介绍了一种新的框架,用于联合预测场景中所有人的凝视目标和社交凝视标签,通过使用包含图像特征和个体的凝视信息的时间变换器,以及一个新的数据集 VSGaze,该模型在 VSGaze 上的训练取得了多人凝视跟踪和社交凝视预测的最新成果。
Mar, 2024
本论文主要创新点是通过合成现有的参考样本的注视重定向眼图像来改进视线适应,并提出了一个自监督的方法进行域适应,利用视线重定向来提高特定个体视线估计的性能,通过对两个公共数据集的广泛实验证明了我们的视线重新定向和视线估计框架的有效性。
Apr, 2019