深入探究第一人称活动识别

May, 2016

Going Deeper into First-Person Activity Recognition

Minghuang Ma, Haoqi Fan, Kris M. Kitani

TL;DR本研究提出了一种双流网络架构，其中一个流分析外观信息，另一个流分析动作信息，并利用卷积神经网络在手势外观、对象属性、本地手势运动和相机自我运动等方面的知识信息，可以有效地提高第一人称视角下动作识别的准确率。

Abstract

We bring together ideas from recent work on feature design for egocentric action recognition under one framework by exploring the use of deep convolutional neural networks (CNN). Recent work has shown that features such as hand appearance, →

egocentric action recognition deep convolutional neural networks twin stream network architecture object attributes hand appearance

发现论文，激发创造

使用 EgoNet 进行第一人称动作物体检测

本文利用第一视角摄像头，提出了一种称为 “action-objects” 的概念，并使用 EgoNet 设计了一个预测模型来检测 action-objects。实验表明，该模型在检测 action-objects 方面比之前的基线方法表现更好，具有较强的泛化能力。

Mar, 2016

基于轨迹对齐的特征用于第一人称动作识别

该研究旨在研究在第一人称视角下，如何准确识别行为。为此，提出了一种新颖的特征轨迹表示方法，并且使用所提出的方法在公开数据集上实现了 11% 的性能提升，该方法可以识别出佩戴者的各种行为，且不需要分割手 / 物体或识别物体 / 手的姿态。

Apr, 2016

我的视角，我的双手：准确的自视角二维手势姿态和动作识别

通过探索 2D 手势姿态评估用于自我中心动作识别的领域，我们提出了两种新方法：EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角，捕捉手部与物体之间的交互。同时，我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估，我们的架构具有更快的推断时间，并且分别达到了 91.32% 和 94.43% 的精度，超越了包括基于 3D 的方法在内的最先进的技术。

Apr, 2024

使用深度学习从自我中心图像预测日常活动

使用深度学习技术和卷积神经网络来预测个人在日常生活中的活动，利用上下文信息（如时间和星期几）来提高分类准确性。

Oct, 2015

只需注意力：将物体中心注意力固定在自我中心活动识别中

本研究提出一种基于深度神经网络模型的近场活动识别模型，其中使用了通过基于分类的 CNN 网络学习到的高度专业的注意力图，以及融合了空间和时间编码的卷积 LSTM 方法，从而实现了将原始视频级别标签用于弱监督学习。该模型具有较高的准确性。

Jul, 2018

以自我为中心的手部跟踪和基于对象的人类动作识别

该论文研究了从第一人称视角获取图像和视频的发展趋势，采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类，表明使用区域兴趣描述视频的信息可以被依靠，来对与手有关的人体动作进行分类。

May, 2019

使用 2D 物体和手部姿态的自我视角人体动作识别

本研究探索了使用二维手部姿态和物体姿态信息实现以自我为中心的动作识别的可行性，并使用最先进的基于 Transformer 的方法分类序列，并取得了 94% 的验证结果，这突出了二维手部和物体姿态信息在动作识别任务中的潜力，并为基于 3D 的方法提供了有前途的替代方案。

Jun, 2023

紧凑型卷积神经网络用于自我中心视频索引

本文提出了一种用于长期活动识别的紧凑型 3D 卷积神经网络（CNN）体系结构，通过使用稀疏光流体积作为输入，就能分类相机佩戴者的活动，从而实现了对非结构化第一人称视角视频的时间分割和分类，分类准确度达到 89％，并超过当前最先进技术 19％，此外还能识别视频是否为第一人称视角，准确度高达 99.2％，比当前最先进技术高 24％。

Apr, 2015

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014

三流网络用于增强动作识别

该论文提出了两种基于 CNN 的体系结构，包括三种流，可以分别捕捉不同速率的空间和时间信息，并使用双向 LSTM 和注意力机制进一步提高模型性能，实现了人类动作识别任务的最先进表现。

Apr, 2021