从无标注视频中学习声音表征的 SoundNet

NIPSOct, 2016

从无标注视频中学习声音表征的 SoundNet

SoundNet: Learning Sound Representations from Unlabeled Video

Yusuf Aytar, Carl Vondrick, Antonio Torralba

TL;DR通过使用大量的野外未标记的声音数据，我们利用视觉和声音之间的自然同步，使用两百万个未标记的视频学习声学表示，提出了一种学生 - 教师训练过程，将视觉知识转移到声音模态中，为声音场景 / 对象分类的标准基准提供了显着的性能提升，即使没有地面真实标签，声音网络自动形成一些高级语义。

Abstract

We learn rich natural sound representations by capitalizing on large amounts of unlabeled sound data collected in the wild. We leverage the natural synchronization between vision and sound to learn an acoustic represent

natural sound unlabeled data acoustic representation student-teacher training acoustic classification

发现论文，激发创造

看、听、学习

探索了音视频流之间对应关系，并提出了利用该信息实现的自我监督视听学习任务，结果表明该方法成功解决了问题，并展现出良好的视听表征，可以将其应用于声音分类、物体定位和细粒度识别任务。

May, 2017

通过观察未标记的视频学习分离物体声音

通过使用深度多实例多标签学习框架来解耦音频频率按照每个视觉对象映射到个人视觉对象，即使没有独立观察 / 听到这些对象，从而学习从未标记的视频中的音频可分离对象模型，然后利用视觉背景在新视频中执行音频源分离。

Apr, 2018

从未标记的视频中进行表征学习：看着世界走过去

本研究提出了使用视频自然增广的无标签视频学习方法，可以有效地提取单个图像的表示，并可用于各种时间和非时间任务中。

Mar, 2020

无监督学习语义音频表征

通过无监督的三元组损失学习方法，得到音频谱图的低维嵌入，用于检索和分类声音事件，在有限监督下实现了两倍于最先进方法的分类准确率。

Nov, 2017

使用声学图像的音视频模型蒸馏

本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示，通过利用新的多模态标记行动识别数据集，并针对性地训练音频深度学习模型，从视觉和声学图像方面实现知识蒸馏，以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。

Apr, 2019

见听阅：深度对齐表示

利用大规模、同步的数据，我们进行了深度判别式表示学习，在三个主要的自然模态中共享学习。我们的实验表明，这种表示对于跨模态检索或在模态之间转移分类器非常有用。此外，我们的网络虽然只是采用图像 + 文本和图像 + 声音对进行训练，但也可以在文本和声音之间进行转移学习，这在训练期间网络从未观察到。我们的表征的可视化揭示了许多隐藏的单元，这些单元自动出现来检测概念，独立于模态。

Jun, 2017

从声音学习视觉：环境声音辅助视觉学习

用环境声音作为监督信号，训练了一个卷积神经网络以预测视频帧所关联的声音的统计摘要，进而学习到了能够传达关于物体和场景信息的表示，表现与其他最先进的无监督学习方法可比。

Dec, 2017

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020

巧合、分类和巩固：学习在最小监督下识别声音

提出一种结合机器学习中自我监督、聚类目标和主动式学习的学习框架，以改善音频表征和识别，实现新的最先进的无监督音频表征并证明了它的有效性。

Nov, 2019

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018