观者视角下的注视和行为：第一人称视频

May, 2020

观者视角下的注视和行为：第一人称视频

In the Eye of the Beholder: Gaze and Actions in First Person Video

Yin Li, Miao Liu, James M. Rehg

TL;DR该研究旨在使用头戴式相机捕获的视频，基于人的动作和视线方向，开发一种新的深度学习模型，能够在 First Person Vision（第一人称视角）环境下进行准确的行动识别，并在 EGTEA Gaze+ 数据集上超越了当前技术水平。

Abstract

We address the task of jointly determining what a person is doing and where they are looking based on the analysis of video captured by a headworn camera. To facilitate our research, we first introduce the egtea gaze++ dataset. Our dataset comes with videos, →

first person vision gaze tracking action recognition deep model egtea gaze+

发现论文，激发创造

基于轨迹对齐的特征用于第一人称动作识别

该研究旨在研究在第一人称视角下，如何准确识别行为。为此，提出了一种新颖的特征轨迹表示方法，并且使用所提出的方法在公开数据集上实现了 11% 的性能提升，该方法可以识别出佩戴者的各种行为，且不需要分割手 / 物体或识别物体 / 手的姿态。

Apr, 2016

一种基于凝视的第一人称视频快进方法

本文提出一种基于注意力模型、注重注视点和视觉场景分析生成视频语义得分的方法，以加速重要片段并跳过重复片段的第一人称视频片段浏览。在公开的第一人称视频数据集上进行的实验评估表明，此方法能够有效提高视频片段搜索速度和准确性。

Jun, 2020

基于视频的端到端眼动追踪技术

提出了一种利用视频数据集和图像相结合的方法，通过学习用户注视与眼部外形之间的联系来提高眼动追踪的精度，实现基于网络摄像头的高准确度屏幕眼动追踪，不需要标记的数据并且通过视觉刺激和眼部图像信息融合可以达到监督式个性化的效果。

Jul, 2020

预测人 - 物互动：第一视角视频中运动注意力和动作的联合预测

本文提出了一种基于未来意图总揽机制的深度学习模型，该模型综合建模并预测了自我中心手部运动、交互热点和未来动作，旨在解决人 - 物互动预测的重要挑战。实验结果表明，所述模型在 EGTEA Gaze+ 和 EPIC-Kitchens 数据集上的行动预测结果优于现有方法。

Nov, 2019

眼中的行为：动态注视数据集和学习显著性模型用于视觉识别

本研究使用人眼追踪数据结合计算机视觉，探究了视觉搜索模式的稳定性、计算机视觉的空间 - 时间兴趣点采样策略与人类注视策略之间的差异，证明人类注视可以被准确预测，且在使用先进计算机视觉实践建立端到端可训练的计算机视觉系统时表现优良。

Dec, 2013

个性化视频视线估计的时空注意力和高斯过程

使用深度学习模型和专门的注意力模块，通过视频实现准确的注视方向预测，并且通过个性化处理和少量样本获得更高的精度。

Apr, 2024

基于第一人称视频的社交行为预测

本文提出了一种从篮球运动员的第一人称视频中预测其未来运动轨迹 (位置和视线方向) 的方法，该方法利用了第一人称视频中独特的学习信号和 3D 重建技术，通过 Siamese 神经网络和长期循环卷积网络实现了对未来运动的预测。

Nov, 2016

在视频中检测出被关注的视觉目标

本研究解决了视频中检测注意目标的问题，通过机器学习模型和新的数据集可以有效推断动态的注视点，并在社交注视行为分类任务中取得了最佳表现。

Mar, 2020

信不信由你，我们知道你在看什么！

本文提出了一种基于人类凝视追踪思路的两阶段解决方案，集成了神经网络和数据集，有效地预测并追踪目标人物的目光方向，且经过大量实验证明，该方案相对于现有解决方案有明显优势。

Jul, 2019

使用 EgoNet 进行第一人称动作物体检测

本文利用第一视角摄像头，提出了一种称为 “action-objects” 的概念，并使用 EgoNet 设计了一个预测模型来检测 action-objects。实验表明，该模型在检测 action-objects 方面比之前的基线方法表现更好，具有较强的泛化能力。

Mar, 2016