使用 EgoNet 进行第一人称动作物体检测
本研究提出了一种双流网络架构,其中一个流分析外观信息,另一个流分析动作信息,并利用卷积神经网络在手势外观、对象属性、本地手势运动和相机自我运动等方面的知识信息,可以有效地提高第一人称视角下动作识别的准确率。
May, 2016
该论文研究了从第一人称视角获取图像和视频的发展趋势,采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类,表明使用区域兴趣描述视频的信息可以被依靠,来对与手有关的人体动作进行分类。
May, 2019
该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集,并设计了使用递归神经网络的基线方法,并进行了各种消融研究以验证其有效性,从而证明该新任务值得进一步学习。
Mar, 2022
本文介绍了 Charades-Ego 数据集,其中包含大量第一人称和第三人称的视频,帮助我们在第一人称和第三人称于视觉研究中建立联系,为建立第一人称视角的模型提供了数据支持。通过本数据集,我们成功地实现了从第三人称到第一人称的知识传递。
Apr, 2018
该研究旨在研究在第一人称视角下,如何准确识别行为。为此,提出了一种新颖的特征轨迹表示方法,并且使用所提出的方法在公开数据集上实现了 11% 的性能提升,该方法可以识别出佩戴者的各种行为,且不需要分割手 / 物体或识别物体 / 手的姿态。
Apr, 2016
本文提出了一种基于未来意图总揽机制的深度学习模型,该模型综合建模并预测了自我中心手部运动、交互热点和未来动作,旨在解决人 - 物互动预测的重要挑战。实验结果表明,所述模型在 EGTEA Gaze+ 和 EPIC-Kitchens 数据集上的行动预测结果优于现有方法。
Nov, 2019
本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示,通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互,并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估,定量和定性结果证实了我们提出方法的有效性。
Oct, 2023
该研究旨在使用头戴式相机捕获的视频,基于人的动作和视线方向,开发一种新的深度学习模型,能够在 First Person Vision(第一人称视角)环境下进行准确的行动识别,并在 EGTEA Gaze+ 数据集上超越了当前技术水平。
May, 2020