ICCVApr, 2019

VideoBERT: 视频与语言表征学习的联合模型

TL;DR本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征,提出了一种在无显式监督下学习高级特征的方法,并将其应用于多项任务,如动作分类和视频字幕生成等,取得了优越的成绩。