深入探究第一人称活动识别
本文利用第一视角摄像头,提出了一种称为 “action-objects” 的概念,并使用 EgoNet 设计了一个预测模型来检测 action-objects。实验表明,该模型在检测 action-objects 方面比之前的基线方法表现更好,具有较强的泛化能力。
Mar, 2016
该研究旨在研究在第一人称视角下,如何准确识别行为。为此,提出了一种新颖的特征轨迹表示方法,并且使用所提出的方法在公开数据集上实现了 11% 的性能提升,该方法可以识别出佩戴者的各种行为,且不需要分割手 / 物体或识别物体 / 手的姿态。
Apr, 2016
通过探索 2D 手势姿态评估用于自我中心动作识别的领域,我们提出了两种新方法:EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角,捕捉手部与物体之间的交互。同时,我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估,我们的架构具有更快的推断时间,并且分别达到了 91.32% 和 94.43% 的精度,超越了包括基于 3D 的方法在内的最先进的技术。
Apr, 2024
本研究提出一种基于深度神经网络模型的近场活动识别模型,其中使用了通过基于分类的 CNN 网络学习到的高度专业的注意力图,以及融合了空间和时间编码的卷积 LSTM 方法,从而实现了将原始视频级别标签用于弱监督学习。该模型具有较高的准确性。
Jul, 2018
该论文研究了从第一人称视角获取图像和视频的发展趋势,采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类,表明使用区域兴趣描述视频的信息可以被依靠,来对与手有关的人体动作进行分类。
May, 2019
本研究探索了使用二维手部姿态和物体姿态信息实现以自我为中心的动作识别的可行性,并使用最先进的基于 Transformer 的方法分类序列,并取得了 94% 的验证结果,这突出了二维手部和物体姿态信息在动作识别任务中的潜力,并为基于 3D 的方法提供了有前途的替代方案。
Jun, 2023
本文提出了一种用于长期活动识别的紧凑型 3D 卷积神经网络(CNN)体系结构,通过使用稀疏光流体积作为输入,就能分类相机佩戴者的活动,从而实现了对非结构化第一人称视角视频的时间分割和分类,分类准确度达到 89%,并超过当前最先进技术 19%,此外还能识别视频是否为第一人称视角,准确度高达 99.2%,比当前最先进技术高 24%。
Apr, 2015
本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构,结合了空间和时间网络,利用稀疏光流信息进行训练并使用多任务学习提高模型性能,成功地提高了视频动作识别的准确率。
Jun, 2014
该论文提出了两种基于 CNN 的体系结构,包括三种流,可以分别捕捉不同速率的空间和时间信息,并使用双向 LSTM 和注意力机制进一步提高模型性能,实现了人类动作识别任务的最先进表现。
Apr, 2021