Oct, 2021

自我监督的空间位置辅助指令视频中的叙述理解

TL;DR该文介绍了将叙述交互视频逐帧定位的任务,并通过一个多层交叉模态注意力网络实现自我监督的效果,其中交替计算视觉和自然语言模态的相互关注,以有效地进行训练,其表现超过基线模型包括浅层和全跨模态关注。