本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能,通过提出一种名为 GEAN 的视频字幕模型,并采用人眼注视追踪数据来提供生成句子的时空注意力,以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估,证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能,并展示了该方法在 VAS 数据集和标准数据集(如 LSMDC 和 Hollywood2)中实现了领先的性能,成为最先进的视频字幕生成方法。
Jul, 2017
本文提出了一种基于人类凝视追踪思路的两阶段解决方案,集成了神经网络和数据集,有效地预测并追踪目标人物的目光方向,且经过大量实验证明,该方案相对于现有解决方案有明显优势。
Jul, 2019
该研究旨在使用头戴式相机捕获的视频,基于人的动作和视线方向,开发一种新的深度学习模型,能够在 First Person Vision(第一人称视角)环境下进行准确的行动识别,并在 EGTEA Gaze+ 数据集上超越了当前技术水平。
May, 2020
通过介绍 SPatial Adaptive GaZe Estimator(SPAZE), 本文提供一种对于眼部注视追踪的新解决方案,通过将个人变化建模为低维潜在参数空间,SPAZE 提供了足够的适应性,能够捕捉个人变化的范围而不容易过度拟合,并证明了其精度和可行性。
Jul, 2018
本文提出了一种基于单个姿态估计模型采集的面部关键点的相对位置来估计个体注视方向的神经网络回归器,结合目标遮挡情况下的置信度门控单元,实现了对复杂辅助生活环境中居民与周围物体互动的自动推理;实验结果表明,该模型与数据集特定的复杂基线模型相媲美。
Sep, 2019
本文研究了如何在自然社交场景下,通过多任务学习方法精准地估计人们在图像中的视觉关注与注视点,特别考虑了视线方向及目标超出画面的情况。该方法在多项测试中取得了优异表现,扩展了现有数据集,公开发布。
该论文提出了一种自适应的方法来清洗现有的人类凝视数据集,并提出了一个健壮的卷积自我注意凝视预测模型,实验证明我们的清洗方法和模型能够显著提高 ADS 性能和泛化能力。
May, 2023
本研究解决了视频中检测注意目标的问题,通过机器学习模型和新的数据集可以有效推断动态的注视点,并在社交注视行为分类任务中取得了最佳表现。
Mar, 2020
本论文使用多模态卷积神经网络在远程摄像机中完成了独立于人物和头部姿态的三维凝视估计。通过将人脸,眼睛区域和面部标志作为神经网络中的单个流来估计静态图像中的凝视。随后,利用凝视的动态特性,将所有帧的学习特征馈送到多到一循环模块,以预测最后一帧的三维凝视向量,其在多种头部姿态和凝视方向上获得了显著的改进。
May, 2018
本研究提出一种新的单阶段端到端注视估计方法,可同时预测图像中多个面孔(>10)的注视方向,并使用 MPSGaze 数据集验证了该方法的有效性和易用性,为实时应用提供支持。
Apr, 2022