Nov, 2020

ActBERT: 学习全局 - 局部的视频文本表示

TL;DR本文介绍了 ActBERT 模型及其应用,它采用自监督学习方法从无标签的数据中提取语音和视频的联合表示,并在多项视频和语言任务中表现出卓越的性能。