使用 EgoNet 进行第一人称动作物体检测

Mar, 2016

使用 EgoNet 进行第一人称动作物体检测

First Person Action-Object Detection with EgoNet

Gedas Bertasius, Hyun Soo Park, Stella X. Yu, Jianbo Shi

TL;DR本文利用第一视角摄像头，提出了一种称为 “action-objects” 的概念，并使用 EgoNet 设计了一个预测模型来检测 action-objects。实验表明，该模型在检测 action-objects 方面比之前的基线方法表现更好，具有较强的泛化能力。

Abstract

Unlike traditional third-person cameras mounted on robots, a first-person camera, captures a person's visual sensorimotor object interactions from up close. In this paper, we study the tight interplay between our momentary visual attention and motor action with objects from a

first-person camera visual attention motor action action-objects egonet

发现论文，激发创造

深入探究第一人称活动识别

本研究提出了一种双流网络架构，其中一个流分析外观信息，另一个流分析动作信息，并利用卷积神经网络在手势外观、对象属性、本地手势运动和相机自我运动等方面的知识信息，可以有效地提高第一人称视角下动作识别的准确率。

May, 2016

物体感知的自我中心在线动作检测

通过整合特定于自我中心视频的先验知识到现有的在线行动检测框架中，我们引入了一个物体感知模块，以提高第一人称视频解释的场景理解和行动检测性能。

Jun, 2024

以自我为中心的手部跟踪和基于对象的人类动作识别

该论文研究了从第一人称视角获取图像和视频的发展趋势，采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类，表明使用区域兴趣描述视频的信息可以被依靠，来对与手有关的人体动作进行分类。

May, 2019

自我中心的三维动作目标预测

该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集，并设计了使用递归神经网络的基线方法，并进行了各种消融研究以验证其有效性，从而证明该新任务值得进一步学习。

Mar, 2022

演员与观察者：第一人称和第三人称视频的联合建模

本文介绍了 Charades-Ego 数据集，其中包含大量第一人称和第三人称的视频，帮助我们在第一人称和第三人称于视觉研究中建立联系，为建立第一人称视角的模型提供了数据支持。通过本数据集，我们成功地实现了从第三人称到第一人称的知识传递。

Apr, 2018

基于轨迹对齐的特征用于第一人称动作识别

该研究旨在研究在第一人称视角下，如何准确识别行为。为此，提出了一种新颖的特征轨迹表示方法，并且使用所提出的方法在公开数据集上实现了 11% 的性能提升，该方法可以识别出佩戴者的各种行为，且不需要分割手 / 物体或识别物体 / 手的姿态。

Apr, 2016

预测人 - 物互动：第一视角视频中运动注意力和动作的联合预测

本文提出了一种基于未来意图总揽机制的深度学习模型，该模型综合建模并预测了自我中心手部运动、交互热点和未来动作，旨在解决人 - 物互动预测的重要挑战。实验结果表明，所述模型在 EGTEA Gaze+ 和 EPIC-Kitchens 数据集上的行动预测结果优于现有方法。

Nov, 2019

自我视角在视角不变动作识别中的作用

本文主要研究如何利用佩戴式摄像头所获得的数据进行行为识别。研究发现，使用卷积神经网络进行自我视角识别可以开辟行为识别领域的新研究视角。

Jun, 2019

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

观者视角下的注视和行为：第一人称视频

该研究旨在使用头戴式相机捕获的视频，基于人的动作和视线方向，开发一种新的深度学习模型，能够在 First Person Vision（第一人称视角）环境下进行准确的行动识别，并在 EGTEA Gaze+ 数据集上超越了当前技术水平。

May, 2020