BriefGPT.xyz
Ask
alpha
关键词
multilayer cross-modal attention network
搜索结果 - 1
自我监督的空间位置辅助指令视频中的叙述理解
该文介绍了将叙述交互视频逐帧定位的任务,并通过一个多层交叉模态注意力网络实现自我监督的效果,其中交替计算视觉和自然语言模态的相互关注,以有效地进行训练,其表现超过基线模型包括浅层和全跨模态关注。
PDF
3 years ago
Prev
Next