ECCVAug, 2020

我们有许多共同点:建模视频中的语义关系集合抽象

TL;DR本研究提出了一种学习基于视频的语义关系集合抽象的方法,将视觉特征与自然语言监督相结合,实现视频系列中的相似性高级表示,可用于识别智能决策中的共同概念,视频添加问题以及异常检测,在 Kinetics 和 Multi-Moments in Time 两个数据集上的实验证明了该方法的鲁棒性和多功能性,相比于基线算法,显式地学习具有语义监督的关系抽象可获得显着的提高