基于凝视的人机协作中的注意力识别
本文提出一种新颖的方法来模拟和模拟人类注意力的近似预测模型,并将其作为结构化辅助特征图输入到下游学习任务中,通过在物体检测和模仿学习两个任务中的应用实验证明了人类注意力的预测可以提高训练模型的鲁棒性和在低数据情景下的快速学习。
Aug, 2023
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016
本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能,通过提出一种名为 GEAN 的视频字幕模型,并采用人眼注视追踪数据来提供生成句子的时空注意力,以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估,证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能,并展示了该方法在 VAS 数据集和标准数据集(如 LSMDC 和 Hollywood2)中实现了领先的性能,成为最先进的视频字幕生成方法。
Jul, 2017
该论文提出了一种自适应的方法来清洗现有的人类凝视数据集,并提出了一个健壮的卷积自我注意凝视预测模型,实验证明我们的清洗方法和模型能够显著提高 ADS 性能和泛化能力。
May, 2023
本研究提出一种基于时空注意力机制的人体动作识别方法,采用外部信息(人的姿态)提取注意力分布,采用 RNN 实现注意力的递归处理,以实现自动关注动作中最活跃的手部,并检测最具区分度的动作要素,并在 NTU-RGB + D 数据集上获得最先进的结果。
Dec, 2017
在这项研究中,我们首先收集了一个名为 IG 的新型凝视固定点数据集,包括来自 740 个不同的互动类别的 53 万个凝视固定点,捕捉到人类观察者在认知互动过程中的视觉注意。然后,我们引入了零样本的面向互动注意力预测任务 ZeroIA,通过挑战模型在训练过程中未遇到的互动中预测视觉线索。我们提出了交互式注意力模型 IA,旨在模拟人类观察者的认知过程来解决 ZeroIA 问题。大量的实验表明,所提出的 IA 模型在 ZeroIA 和完全监督的环境中都优于其他最先进的方法。最后,我们努力将面向互动注意力应用于互动识别任务本身,并通过利用来自 IG 的真实人类注意力数据和由 IA 生成的注意力标签来提高现有最先进的 HOI 模型的性能和可解释性。
May, 2024
提出一种新的驾驶员注意力数据收集协议并介绍了一个新的驾驶员注意力数据集 BDD-A,进一步提出了人工加权采样(HWS)方法来构建驾驶员注意力预测模型,该模型不仅表现出比现有模型更好的性能,而且还是基于常规驾驶过程中的实际数据预测的。
Nov, 2017
本研究提出了一种相对注意力模型,用于预测人之间的相互作用,通过采用三元耦合深度递归结构以及建立有效的人 - 人相互作用表示和全局相互作用表示,同时分配更高的重要性给与正在发生互动的相关区域,该模型在两个公共数据集上的广泛实验证明了其在预测人与人之间相互作用时具有更高的准确性。
May, 2017
对于服务机器人来说,关键是能够尽早地察觉到接近的人有意互动,以便主动采取友好行为,从而提升用户体验。我们通过一个自监督训练的序列到序列分类器来解决这个感知任务,主要研究了在这种情况下表示人的目光的特征的益处。在一个新的数据集上进行的大量实验证明,包含目光线索显著提高了分类器的性能(AUROC 从 84.5% 增加到 91.2%),能够实现准确分类的距离从 2.4 米提高到 3.2 米。我们还量化了系统在无外部监督的情况下适应新环境的能力。定性实验证明了与服务员机器人的实际应用。
Apr, 2024