CVPRMar, 2020

利用语言描述中的语义角色进行视频对象定位

TL;DR本文探讨视频对象基础 (VOG)、研究对象关系信息以及提出了一种新的 VOGNet 框架,利用自我关注和相对位置编码来编码多模态对象关系,并通过引入一种新的对比采样方法构建了 ASRL 数据集,并在此基础上进行实验验证。结果表明,将对象关系编码并应用于 VOG 任务可以大大提高模型表现。