Jun, 2020

利用多模态自监督从零开始标记未标记的视频

TL;DR本文提出了一种基于音频和视觉的聚类方法,可以实现对视频数据集的无监督标记。经过广泛的分析,结果聚类与人工标签有很高的语义重叠性。同时,该方法也为 Kinetics,Kinetics-Sound,VGG-Sound 和 AVE 等常见视频数据集的无监督标记带来了首批基准结果。