Jan, 2023

概括过去,预测未来:自然语言描述的背景加强多模态物体交互

TL;DR研究以自我为中心的视频中的物体交互预测。我们提出了一个基于多模态变换器的架构 TransFusion,利用语言总结过去的动作背景,这个动作背景和下一个视频帧一起被多模态融合模块处理以预测下一个物体交互。我们的模型提高了端到端学习的效率,并通过 Ego4D 和 EPIC-KITCHENS-100 实验证明了模型的有效性。