Aug, 2023

利用下一个活跃对象进行自我中心视频中的上下文感知预测

TL;DR本文研究了短期对象交互预测(STA)问题,并提出了一种多模态端到端变压器网络 NAOGAT(Next-Active-Object Guided Anticipation Transformer),它通过处理观察到的帧中的对象,预测下一个活跃对象(NAO),从而引导模型预测上下文感知的未来动作。