使用声学图像的音视频模型蒸馏

Apr, 2019

Audio-Visual Model Distillation Using Acoustic Images

Andrés F. Pérez, Valentina Sanguineti, Pietro Morerio, Vittorio Murino

TL;DR本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示，通过利用新的多模态标记行动识别数据集，并针对性地训练音频深度学习模型，从视觉和声学图像方面实现知识蒸馏，以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。

Abstract

In this paper, we investigate how to learn rich and robust feature representations for audio classification from visual data and acoustic images, a novel audio data modality. Former models learn audio representat

audio classification multimodal dataset acoustic images deep learning models teacher-student learning

发现论文，激发创造

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

看、听、学习

探索了音视频流之间对应关系，并提出了利用该信息实现的自我监督视听学习任务，结果表明该方法成功解决了问题，并展现出良好的视听表征，可以将其应用于声音分类、物体定位和细粒度识别任务。

May, 2017

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

从无标注视频中学习声音表征的 SoundNet

通过使用大量的野外未标记的声音数据，我们利用视觉和声音之间的自然同步，使用两百万个未标记的视频学习声学表示，提出了一种学生 - 教师训练过程，将视觉知识转移到声音模态中，为声音场景 / 对象分类的标准基准提供了显着的性能提升，即使没有地面真实标签，声音网络自动形成一些高级语义。

Oct, 2016

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

见听阅：深度对齐表示

利用大规模、同步的数据，我们进行了深度判别式表示学习，在三个主要的自然模态中共享学习。我们的实验表明，这种表示对于跨模态检索或在模态之间转移分类器非常有用。此外，我们的网络虽然只是采用图像 + 文本和图像 + 声音对进行训练，但也可以在文本和声音之间进行转移学习，这在训练期间网络从未观察到。我们的表征的可视化揭示了许多隐藏的单元，这些单元自动出现来检测概念，独立于模态。

Jun, 2017

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

自监督多感官特征的音频 - 视觉场景分析

本文提出了一种融合多感官表征的方法，通过神经网络自动预测视频帧和音频的时间对齐情况，实现声音定位、视听行为识别和音频源分离等三个应用。

Apr, 2018

跨模态一致性下的视听实例鉴别

文中介绍了一种自监督学习方法，通过交叉模态辨别视频和音频来学习视听表征，其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别，可以学习到来自视频和音频的良好表征，并可于行动识别任务中获得高竞争性能。同时，文中提到该方法采用交叉模态协同度量相似性，构造更好的正负样本集合，从而实现了对可视相似度的校准。

Apr, 2020