Oct, 2021
自我监督的空间位置辅助指令视频中的叙述理解
Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos
Reuben Tan, Bryan A. Plummer, Kate Saenko, Hailin Jin, Bryan Russell
TL;DR该文介绍了将叙述交互视频逐帧定位的任务,并通过一个多层交叉模态注意力网络实现自我监督的效果,其中交替计算视觉和自然语言模态的相互关注,以有效地进行训练,其表现超过基线模型包括浅层和全跨模态关注。