Jul, 2020

从文本网络监督中学习视频表征

TL;DR通过采集 70M个公开的视频并使用相关的文本描述进行自我监督训练,本文提出了一种基于文本的学习视频表示的方法,证明了这种方法在预训练视频表示中比现有的方法更有效。