观者视角下的注视和行为:第一人称视频
该研究旨在研究在第一人称视角下,如何准确识别行为。为此,提出了一种新颖的特征轨迹表示方法,并且使用所提出的方法在公开数据集上实现了 11% 的性能提升,该方法可以识别出佩戴者的各种行为,且不需要分割手 / 物体或识别物体 / 手的姿态。
Apr, 2016
本文提出一种基于注意力模型、注重注视点和视觉场景分析生成视频语义得分的方法,以加速重要片段并跳过重复片段的第一人称视频片段浏览。在公开的第一人称视频数据集上进行的实验评估表明,此方法能够有效提高视频片段搜索速度和准确性。
Jun, 2020
提出了一种利用视频数据集和图像相结合的方法,通过学习用户注视与眼部外形之间的联系来提高眼动追踪的精度,实现基于网络摄像头的高准确度屏幕眼动追踪,不需要标记的数据并且通过视觉刺激和眼部图像信息融合可以达到监督式个性化的效果。
Jul, 2020
本文提出了一种基于未来意图总揽机制的深度学习模型,该模型综合建模并预测了自我中心手部运动、交互热点和未来动作,旨在解决人 - 物互动预测的重要挑战。实验结果表明,所述模型在 EGTEA Gaze+ 和 EPIC-Kitchens 数据集上的行动预测结果优于现有方法。
Nov, 2019
本研究使用人眼追踪数据结合计算机视觉,探究了视觉搜索模式的稳定性、计算机视觉的空间 - 时间兴趣点采样策略与人类注视策略之间的差异,证明人类注视可以被准确预测,且在使用先进计算机视觉实践建立端到端可训练的计算机视觉系统时表现优良。
Dec, 2013
本文提出了一种从篮球运动员的第一人称视频中预测其未来运动轨迹 (位置和视线方向) 的方法,该方法利用了第一人称视频中独特的学习信号和 3D 重建技术,通过 Siamese 神经网络和长期循环卷积网络实现了对未来运动的预测。
Nov, 2016
本文提出了一种基于人类凝视追踪思路的两阶段解决方案,集成了神经网络和数据集,有效地预测并追踪目标人物的目光方向,且经过大量实验证明,该方案相对于现有解决方案有明显优势。
Jul, 2019
本文利用第一视角摄像头,提出了一种称为 “action-objects” 的概念,并使用 EgoNet 设计了一个预测模型来检测 action-objects。实验表明,该模型在检测 action-objects 方面比之前的基线方法表现更好,具有较强的泛化能力。
Mar, 2016