Jul, 2024

ZARRIO @ Ego4D短期物体交互预测挑战:利用功能性和基于注意力的模型进行STA

TL;DR通过STAformer模型,结合基于注意力的架构、时间池化、图像-视频注意力以及多尺度特征融合等方法,可以从图像输入视频对中预测短期物体交互的位置、名词和动词类别,以及与观察到的双眼视角视频相关的接触时间。此外,通过模拟适应性,提供两个新模块来支持STA预测,分别是对物体运动轨迹和手部观察的交互热点预测,并在热点周围提高STA预测的可信度。