Jun, 2020
利用多模态自监督从零开始标记未标记的视频
Labelling unlabelled videos from scratch with multi-modal self-supervision
Yuki M. Asano, Mandela Patrick, Christian Rupprecht, Andrea Vedaldi
TL;DR本文提出了一种基于音频和视觉的聚类方法,可以实现对视频数据集的无监督标记。经过广泛的分析,结果聚类与人工标签有很高的语义重叠性。同时,该方法也为 Kinetics,Kinetics-Sound,VGG-Sound 和 AVE 等常见视频数据集的无监督标记带来了首批基准结果。