EMAG: 自我动作感知的、通用化的从第一人称视频中预测二维手势

May, 2024

EMAG: 自我动作感知的、通用化的从第一人称视频中预测二维手势

EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos

Masashi Hatano, Ryo Hachiuma, Hideo Saito

TL;DR从利用自我中心视频预测未来人类行为具有挑战性但又至关重要的任务入手，本文提出了一种理解人类意图的自我中心视频下的手预测方法，该方法解决了自我中心视频中的自我运动对未来帧中的 2D 手位置的严重影响以及基于视觉信息预测过度拟合背景或场景纹理的问题，并在大规模数据集上验证了其有效性。

Abstract

Predicting future human behavior from egocentric videos is a challenging but critical task for human intention understanding. Existing methods for forecasting →

human intention understanding egocentric videos 2d hand positions ego-motion generalization

发现论文，激发创造

我的视角，我的双手：准确的自视角二维手势姿态和动作识别

通过探索 2D 手势姿态评估用于自我中心动作识别的领域，我们提出了两种新方法：EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角，捕捉手部与物体之间的交互。同时，我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估，我们的架构具有更快的推断时间，并且分别达到了 91.32% 和 94.43% 的精度，超越了包括基于 3D 的方法在内的最先进的技术。

Apr, 2024

使用 2D 物体和手部姿态的自我视角人体动作识别

本研究探索了使用二维手部姿态和物体姿态信息实现以自我为中心的动作识别的可行性，并使用最先进的基于 Transformer 的方法分类序列，并取得了 94% 的验证结果，这突出了二维手部和物体姿态信息在动作识别任务中的潜力，并为基于 3D 的方法提供了有前途的替代方案。

Jun, 2023

HOIMotion: 使用自我中心的 3D 物体边界框预测人与物体交互中的人体动作

HOIMotion 利用过去的人体姿势和视角 3D 物体边界框信息进行人体运动预测，通过编码器 - 残差图卷积网络和多层感知器从姿势和物体特征中提取特征，将姿势和物体特征融合成新颖的姿势 - 物体图，并使用残差解码器图卷积网络预测未来的人体运动。我们在 Aria 数字孪生（ADT）和 MoGaze 数据集上广泛评估了我们的方法，并显示 HOIMotion 在关节位置误差平均值方面相较于最先进的方法取得了高达 8.7％（ADT）和 7.2％（MoGaze）的显著改进。为了补充这些评估结果，我们报告了一项人类研究（N=20），表明我们的方法的改进使预测的姿势被认为比现有方法更精确和更逼真。综上所述，这些结果揭示了视角 3D 物体边界框对人体运动预测的重要信息内容以及我们的方法在利用该信息方面的有效性。

Jul, 2024

以自我为中心的手部跟踪和基于对象的人类动作识别

该论文研究了从第一人称视角获取图像和视频的发展趋势，采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类，表明使用区域兴趣描述视频的信息可以被依靠，来对与手有关的人体动作进行分类。

May, 2019

助力之手：一种物体感知的自我中心视频识别模型

引入一种面向对象的解码器，通过提供手部位置、物体位置以及物体的语义标签的预测任务来增强模型的对象感知能力，以在自我中心视频中提高时空表示的性能。通过在几个下游视频文本检索和分类基准测试中进行强转移和使用学习到的表示来进行长期视频理解任务的输入，证明了我们模型学到的对象感知表示的性能优于现有技术水平，即使与使用更大批次大小进行训练的网络相比也是如此。通过使用嘈杂的图像级别检测作为伪标签进行训练，模型可以通过视频一致性提供更好的边界框，并在关联文本描述中进行词的定位，从而显示出该模型可以作为自我中心视频模型的替代品来通过视觉文本对齐来提高性能。

Aug, 2023

从自我中心视角视频中预测手部动作和交互热点

本研究提出一种通过 Object-Centric Transformer 模型来预测在 egocentric 视频中未来的手部和物品相互作用的方法，并使用概率框架来处理不确定性。在实验中，我们对 Epic-Kitchens-55、Epic-Kitchens-100 和 EGTEA Gaze+ 数据集进行了测试，并显示 OCT 较现有方法显著优越。

Apr, 2022

自我中心的三维动作目标预测

该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集，并设计了使用递归神经网络的基线方法，并进行了各种消融研究以验证其有效性，从而证明该新任务值得进一步学习。

Mar, 2022

通过自我头部姿态估计进行自我身体姿态估计

该研究介绍了一种新方法，利用头部运动作为中间表示，将三维人体运动的预测分解为两个阶段，并使用条件扩散生成多个可能的全身动作，消除了需要训练配对数据集的需求，可以分别利用大规模的追踪数据集和运动捕捉数据集。

Dec, 2022

预测人 - 物互动：第一视角视频中运动注意力和动作的联合预测

本文提出了一种基于未来意图总揽机制的深度学习模型，该模型综合建模并预测了自我中心手部运动、交互热点和未来动作，旨在解决人 - 物互动预测的重要挑战。实验结果表明，所述模型在 EGTEA Gaze+ 和 EPIC-Kitchens 数据集上的行动预测结果优于现有方法。

Nov, 2019

通过三维场景支撑从自我中心视频中捕获四维人体

我们介绍了一种重建第二人称 3D 人体网格时间序列的新任务，并通过优化方法的应用解决了视角独特的自我中心视频人体捕捉的技术难题，从而比之前的单眼视频人体动作捕捉方法更准确地估计人体姿态和形状。

Nov, 2020