Jul, 2020

视频中的视觉关系定位

TL;DR本文介绍了一项新任务:视频中的视觉关系定位,目的是在视频中定位给定的主谓宾形式关系,以提供支持其他高级视频语言任务(例如视频语言基础和视频问答)。 通过协同优化构建的两个区域序列以及关系关注和重构,我们进一步提出了通过视觉实体之间的空间注意力转移的消息传递机制以解决挑战. 我们的模型不仅显着优于基线方法,而且能够产生具有视觉意义的事实以支持视觉基础。