Jun, 2024

短期物体交互预期的可供性和注意力模型

TL;DR短期物体交互预测通过检测下一个活动物体的位置、交互的名词和动词类别以及从自我中心视频观察中计算接触时间,对于可穿戴助手或人机交互理解用户目标至关重要。本文提出了 STAformer,一种新的基于注意力机制的架构,将帧引导的时间池化、双重图像 - 视频注意力和多尺度特征融合集成在一起,以支持从图像输入的视频对中进行 STA 预测。我们引入了两个新模块来通过建模适应能力来确定 STA 预测。第一个是环境适应性模型,它作为在给定物理场景中可能发生的交互的持久性记忆。第二个是通过观察手部和物体轨迹预测交互热点,增加在热点周围定位 STA 预测的置信度。我们的结果显示,在 Ego4D 上整体 Top-5 mAP 改进了高达 + 45%,在一组新的精选 EPIC-Kitchens STA 标签上改进了 + 42%。我们将在 Ego4D 和 EPIC-Kitchens 上发布代码、注释和预先提取的适应能力,以鼓励未来研究在这个领域展开。