ECCVAug, 2016

环境声音提供视觉学习的监督

TL;DR该论文表明,可以使用环境声音作为学习视觉模型的监督信号,他们通过训练卷积神经网络预测与视频帧相关联的声音的统计摘要的过程,展示出网络可以学习传达有关物体和场景的表示,并在几个识别任务上评估了该表示,发现其性能与其他最先进的无监督学习方法相当。通过视觉化,他们还显示网络学习选择通常与特征声音相关联的对象的单元。