StillFast: 一种短期物体交互预测的端到端方法
本技术报告提出了一种基于引导注意力机制的解决方案来解决 EGO4D 短期预测挑战,该解决方案结合了物体检测和从视频剪辑中提取的时空特征,增强了运动和上下文信息,并进一步解码物体中心和运动中心的信息以解决 EGO4D 短期对象交互预测挑战。我们在快速网络上应用引导关注力,构建我们的模型,该模型在验证集上获得了更好的性能,并在 EGO4D 短期对象交互预测挑战的测试集上取得了最佳成绩。
May, 2023
短期物体交互预测通过检测下一个活动物体的位置、交互的名词和动词类别以及从自我中心视频观察中计算接触时间,对于可穿戴助手或人机交互理解用户目标至关重要。本文提出了 STAformer,一种新的基于注意力机制的架构,将帧引导的时间池化、双重图像 - 视频注意力和多尺度特征融合集成在一起,以支持从图像输入的视频对中进行 STA 预测。我们引入了两个新模块来通过建模适应能力来确定 STA 预测。第一个是环境适应性模型,它作为在给定物理场景中可能发生的交互的持久性记忆。第二个是通过观察手部和物体轨迹预测交互热点,增加在热点周围定位 STA 预测的置信度。我们的结果显示,在 Ego4D 上整体 Top-5 mAP 改进了高达 + 45%,在一组新的精选 EPIC-Kitchens STA 标签上改进了 + 42%。我们将在 Ego4D 和 EPIC-Kitchens 上发布代码、注释和预先提取的适应能力,以鼓励未来研究在这个领域展开。
Jun, 2024
本报告描述了我们在 Ego4D 長期動作預測挑战赛 2023 中的技术细节,我们引入了三个改进,包括 SlowFast 和 SlowFast-CLIP 模型的集合,放松未来动作的顺序限制,以及基于词共现的操作类(动词、名词)的预测,优化了基线性能,取得了公共排行榜的第二名。
Jul, 2023
该论文提出了一种新颖的方法,名为 GANO(Guided Attention for Next active Objects),该方法采用了在对象之间引导注意力机制和从视频剪辑中提取的时空特征,以增强运动和语境信息,并进一步解码面向对象和动态的信息,以解决视角视频中 STA 的问题。在最大的自我中心数据集上表现出比现有最先进方法更好的效果,可以预测下一个活动对象的标签,其边界框位置,相应的未来动作和接触对象的时间。
May, 2023
本文研究了短期对象交互预测(STA)问题,并提出了一种多模态端到端变压器网络 NAOGAT(Next-Active-Object Guided Anticipation Transformer),它通过处理观察到的帧中的对象,预测下一个活跃对象(NAO),从而引导模型预测上下文感知的未来动作。
Aug, 2023
本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示,通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互,并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估,定量和定性结果证实了我们提出方法的有效性。
Oct, 2023
为了进行流式自我中心行动评估,我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型,该模型基于过去到未来的蒸馏损失进行优化,实验表明,这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。
Jun, 2023
本文利用第一视角摄像头,提出了一种称为 “action-objects” 的概念,并使用 EgoNet 设计了一个预测模型来检测 action-objects。实验表明,该模型在检测 action-objects 方面比之前的基线方法表现更好,具有较强的泛化能力。
Mar, 2016
本研究提出了一种基于 LSTMs 和 Modality ATTention (MATT) 机制的行为预测框架,能够对计算机视觉领域的尺度序列问题进行有效解决,同时在 EPIC-Kitchens 等数据集上表现出色。
May, 2019