追踪社交互动中人们的注视和视觉关注点
本文研究了如何在自然社交场景下,通过多任务学习方法精准地估计人们在图像中的视觉关注与注视点,特别考虑了视线方向及目标超出画面的情况。该方法在多项测试中取得了优异表现,扩展了现有数据集,公开发布。
Jul, 2018
通过收集GW数据集(该数据集包括眼部运动、头部角速度、眼睛和场景图像),训练和评估了两种机器学习算法(随机森林和递归神经网络模型),用于眼睛运动分类(如注视、眼球、追踪)。分类器实现了近似于人类检测注视和眼球运动的90%的性能,但在检测追踪运动时则低于60%,并且追踪分类在没有头部运动信息的情况下更低。最佳模型对特征的显着性分析显示,分类不需要头部和眼睛跟踪坐标系的空间对齐。
May, 2019
本文提出了一个名为ZeroGaze的新任务,即预测未曾搜索过的物体的视线,并开发了一种新的模型Gazeformer,该模型在Scanpath预测中利用语义相似性,采用基于变压器的编码器-解码器架构,并在ZeroGaze设置中表现出明显优越性,同时在标准视觉搜索任务中比现有模型更快。
Mar, 2023
使用音频线索,本文在对话场景中提出了一种基于多模式的凝视追踪框架,利用音频与嘴唇之间的关联来增强场景图像并估计凝视候选者,采用多层感知机将主题与候选者进行匹配作为分类任务,通过引入图像和音频的对话数据集进行评估,表明我们的方法在凝视追踪任务中具有显著优势,并促进了多模式凝视追踪估计的更多研究。
Nov, 2023
本文介绍了一种新的框架,用于联合预测场景中所有人的凝视目标和社交凝视标签,通过使用包含图像特征和个体的凝视信息的时间变换器,以及一个新的数据集VSGaze,该模型在VSGaze上的训练取得了多人凝视跟踪和社交凝视预测的最新成果。
Mar, 2024
基于Vision Transformers和自注意力机制,我们提出了一种新的单模态注视跟踪框架ViTGaze,通过人-场景间的信息交互提高了性能,达到了最先进的性能水平。
Mar, 2024
我们提出了一种端到端的方法来检测凝视目标:预测个体和他们正在注视的目标图像区域之间的头目标连接。我们的实验结果表明,GazeHTA在两个标准数据集上优于最先进的凝视目标检测方法和两个改进的基于扩散的基准模型。
Apr, 2024
在这项研究中,我们首先收集了一个名为IG的新型凝视固定点数据集,包括来自740个不同的互动类别的53万个凝视固定点,捕捉到人类观察者在认知互动过程中的视觉注意。然后,我们引入了零样本的面向互动注意力预测任务ZeroIA,通过挑战模型在训练过程中未遇到的互动中预测视觉线索。我们提出了交互式注意力模型IA,旨在模拟人类观察者的认知过程来解决ZeroIA问题。大量的实验表明,所提出的IA模型在ZeroIA和完全监督的环境中都优于其他最先进的方法。最后,我们努力将面向互动注意力应用于互动识别任务本身,并通过利用来自IG的真实人类注意力数据和由IA生成的注意力标签来提高现有最先进的HOI模型的性能和可解释性。
May, 2024
本研究提出一种新颖的针对混合现实环境的三维凝视追踪框架,旨在增强团队协作和共同注意力,通过利用计算机视觉和机器学习技术,实现精确的三维凝视估计,无需依赖专用硬件或复杂的数据融合,在组环境中追踪凝视模式,解决常见深度估计误差,保证数据集的空间和身份的一致性,实证结果展示了我们方法在群组环境中的准确性和可靠性,为在动态和非结构化环境中的教育和专业培训应用中的行为和互动分析提供了推动机制。
Jun, 2024