从自我中心视角视频中预测手部动作和交互热点
在该研究中,我们提出了一个统一框架,用于通过单个RGB图像并基于神经网络模型来共同估计3D手部和物体姿态、模拟它们的交互,以及识别物体和动作类别,整个模型可针对序列帧的输入进行优化。
Apr, 2019
本文提出了一种基于未来意图总揽机制的深度学习模型,该模型综合建模并预测了自我中心手部运动、交互热点和未来动作,旨在解决人-物互动预测的重要挑战。实验结果表明,所述模型在 EGTEA Gaze+ 和 EPIC-Kitchens 数据集上的行动预测结果优于现有方法。
Nov, 2019
本研究以手与物体的接触与断开作为行为结构的中心,从这个角度出发探究了人类视觉对行为的理解方式,并在此基础上提出了依据行为接触建模的方法,并为此设计了一套行为预测与研究框架,该框架的使用在第四次EPIC Kitchens 行为预测挑战赛中达到了前沿水平。
Feb, 2021
本研究提出了一种名为StillFast的端到端架构,从自我中心的视角研究了短期物体交互预测问题,在同时处理静态图像和视频的基础上,预测未来交互的动词并确定交互开始的时间,实验表明我们的方法在EGO4D数据集上表现优异,已在EGO4D短期物体交互预测挑战2022中排名第一。
Apr, 2023
我们提出了一种新的基于扩散的交互预测方法Diff-IP2D,以非自回归的迭代方式同时预测未来的手轨迹和物体可供性,在预测过程中考虑了相机使用者的动态特征,实验证明我们的方法在2D手物交互预测方面优于现有的基线方法。
May, 2024
通过引入一种新型的双向递进式Transformer模型(BOT),该论文利用手部轨迹和交互热点之间的深层内在连接,通过空间-时间重构模块最大程度地利用来自前一观察帧的空间信息,通过双向递进式增强模块相互改进手部轨迹和交互热点的预测,以降低错误积累,并通过引入轨迹随机单元和C-VAE分别为轨迹和交互热点引入适当的不确定性。该方法在Epic-Kitchens-100、EGO4D和EGTEA Gaze+三个基准数据集上取得了最先进的结果,展现在复杂场景中的卓越表现。
May, 2024
从利用自我中心视频预测未来人类行为具有挑战性但又至关重要的任务入手,本文提出了一种理解人类意图的自我中心视频下的手预测方法,该方法解决了自我中心视频中的自我运动对未来帧中的2D手位置的严重影响以及基于视觉信息预测过度拟合背景或场景纹理的问题,并在大规模数据集上验证了其有效性。
May, 2024
短期物体交互预测通过检测下一个活动物体的位置、交互的名词和动词类别以及从自我中心视频观察中计算接触时间,对于可穿戴助手或人机交互理解用户目标至关重要。本文提出了STAformer,一种新的基于注意力机制的架构,将帧引导的时间池化、双重图像-视频注意力和多尺度特征融合集成在一起,以支持从图像输入的视频对中进行STA预测。我们引入了两个新模块来通过建模适应能力来确定STA预测。第一个是环境适应性模型,它作为在给定物理场景中可能发生的交互的持久性记忆。第二个是通过观察手部和物体轨迹预测交互热点,增加在热点周围定位STA预测的置信度。我们的结果显示,在Ego4D上整体Top-5 mAP改进了高达+45%,在一组新的精选EPIC-Kitchens STA标签上改进了+42%。我们将在Ego4D和EPIC-Kitchens上发布代码、注释和预先提取的适应能力,以鼓励未来研究在这个领域展开。
Jun, 2024
HOT3D是一个公开可用的三维视角下手部和物体跟踪的数据集,包含大量的多视角RGB/单色图像流以及19个参与者与33个不同的刚体物体的交互动作,提供了多模态信号和全面的真实标注,旨在加速关于视角自身手部与物体交互的研究。
Jun, 2024
通过STAformer模型,结合基于注意力的架构、时间池化、图像-视频注意力以及多尺度特征融合等方法,可以从图像输入视频对中预测短期物体交互的位置、名词和动词类别,以及与观察到的双眼视角视频相关的接触时间。此外,通过模拟适应性,提供两个新模块来支持STA预测,分别是对物体运动轨迹和手部观察的交互热点预测,并在热点周围提高STA预测的可信度。
Jul, 2024