EMAG: 自我动作感知的、通用化的从第一人称视频中预测二维手势
通过探索 2D 手势姿态评估用于自我中心动作识别的领域,我们提出了两种新方法:EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角,捕捉手部与物体之间的交互。同时,我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估,我们的架构具有更快的推断时间,并且分别达到了 91.32% 和 94.43% 的精度,超越了包括基于 3D 的方法在内的最先进的技术。
Apr, 2024
本研究探索了使用二维手部姿态和物体姿态信息实现以自我为中心的动作识别的可行性,并使用最先进的基于 Transformer 的方法分类序列,并取得了 94% 的验证结果,这突出了二维手部和物体姿态信息在动作识别任务中的潜力,并为基于 3D 的方法提供了有前途的替代方案。
Jun, 2023
HOIMotion 利用过去的人体姿势和视角 3D 物体边界框信息进行人体运动预测,通过编码器 - 残差图卷积网络和多层感知器从姿势和物体特征中提取特征,将姿势和物体特征融合成新颖的姿势 - 物体图,并使用残差解码器图卷积网络预测未来的人体运动。我们在 Aria 数字孪生(ADT)和 MoGaze 数据集上广泛评估了我们的方法,并显示 HOIMotion 在关节位置误差平均值方面相较于最先进的方法取得了高达 8.7%(ADT)和 7.2%(MoGaze)的显著改进。为了补充这些评估结果,我们报告了一项人类研究(N=20),表明我们的方法的改进使预测的姿势被认为比现有方法更精确和更逼真。综上所述,这些结果揭示了视角 3D 物体边界框对人体运动预测的重要信息内容以及我们的方法在利用该信息方面的有效性。
Jul, 2024
该论文研究了从第一人称视角获取图像和视频的发展趋势,采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类,表明使用区域兴趣描述视频的信息可以被依靠,来对与手有关的人体动作进行分类。
May, 2019
引入一种面向对象的解码器,通过提供手部位置、物体位置以及物体的语义标签的预测任务来增强模型的对象感知能力,以在自我中心视频中提高时空表示的性能。通过在几个下游视频文本检索和分类基准测试中进行强转移和使用学习到的表示来进行长期视频理解任务的输入,证明了我们模型学到的对象感知表示的性能优于现有技术水平,即使与使用更大批次大小进行训练的网络相比也是如此。通过使用嘈杂的图像级别检测作为伪标签进行训练,模型可以通过视频一致性提供更好的边界框,并在关联文本描述中进行词的定位,从而显示出该模型可以作为自我中心视频模型的替代品来通过视觉文本对齐来提高性能。
Aug, 2023
本研究提出一种通过 Object-Centric Transformer 模型来预测在 egocentric 视频中未来的手部和物品相互作用的方法,并使用概率框架来处理不确定性。在实验中,我们对 Epic-Kitchens-55、Epic-Kitchens-100 和 EGTEA Gaze+ 数据集进行了测试,并显示 OCT 较现有方法显著优越。
Apr, 2022
该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集,并设计了使用递归神经网络的基线方法,并进行了各种消融研究以验证其有效性,从而证明该新任务值得进一步学习。
Mar, 2022
该研究介绍了一种新方法,利用头部运动作为中间表示,将三维人体运动的预测分解为两个阶段,并使用条件扩散生成多个可能的全身动作,消除了需要训练配对数据集的需求,可以分别利用大规模的追踪数据集和运动捕捉数据集。
Dec, 2022
本文提出了一种基于未来意图总揽机制的深度学习模型,该模型综合建模并预测了自我中心手部运动、交互热点和未来动作,旨在解决人 - 物互动预测的重要挑战。实验结果表明,所述模型在 EGTEA Gaze+ 和 EPIC-Kitchens 数据集上的行动预测结果优于现有方法。
Nov, 2019
我们介绍了一种重建第二人称 3D 人体网格时间序列的新任务,并通过优化方法的应用解决了视角独特的自我中心视频人体捕捉的技术难题,从而比之前的单眼视频人体动作捕捉方法更准确地估计人体姿态和形状。
Nov, 2020