Jan, 2020

通过视频和文本对判别学习时空特征

TL;DR本文提出一种基于视觉 - 文本关联的弱监督跨模态 pair 鉴别框架 (CPD),并将其训练在标准视频和不加筛选的网络视频数据集上,成功在动作识别和零样本动作识别任务上取得了最优性能。