NIPSOct, 2016

从无标注视频中学习声音表征的 SoundNet

TL;DR通过使用大量的野外未标记的声音数据,我们利用视觉和声音之间的自然同步,使用两百万个未标记的视频学习声学表示,提出了一种学生 - 教师训练过程,将视觉知识转移到声音模态中,为声音场景 / 对象分类的标准基准提供了显着的性能提升,即使没有地面真实标签,声音网络自动形成一些高级语义。