动态卷积神经网络作为高效的预训练音频模型

Oct, 2023

动态卷积神经网络作为高效的预训练音频模型

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models

Florian Schmid, Khaled Koutini, Gerhard Widmer

TL;DR在大规模音频数据集中，通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型，本文通过 Transformer 与 CNN 的知识蒸馏，提出了一种高效的 CNN 模型，通过引入动态非线性、动态卷积和注意机制构建了动态 CNN 块，实验证明这种动态 CNN 模型在音频标签任务中的性能复杂度权衡和参数效率方面超越了传统的高效 CNN 模型，并且在下游任务中表现出更好的性能，达到了 Transformer 的性能甚至在 AudioSet 和多个下游任务上超越了 Transformer。

Abstract

The introduction of large-scale audio datasets, such as AudioSet, paved the way for Transformers to conquer the audio domain and replace cnns as the state-of-the-art neural network architecture for many tasks. Audio Spectrogram Transformers are excellent at exploiting large datasets, c

audio spectrogram transformers cnns transformer-to-cnn knowledge distillation efficient cnns dynamic cnns

发现论文，激发创造

音频 Transformer 的 Patchout 高效训练

本文提出一种优化和正则化变压器模型的新方法，使其在音频光谱图上实现了新的最优性能，同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。

Oct, 2021

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

调谐：临床环境中有限数据的音频分类器性能分析

通过深度学习模型在临床环境中评估音频分类，针对反映真实世界前瞻性数据收集的小数据集，我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型，以及像 ViT、SWIN 和 AST 这样的 Transformer 模型，并将它们与预训练的音频模型（如 YAMNet 和 VGGish）进行比较。我们的方法强调了在特定临床数据上微调之前，在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术，发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明，在小数据集背景下，CNN 模型可以达到或超过 Transformer 模型的性能，其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性，为依赖音频分类的临床诊断提供了有价值的见解。

Feb, 2024

重新思考用于音频分类的 CNN 模型

本研究表明 ImageNet 预训练的标准深度 CNN 模型可以作为强大的音频分类基线网络，研究了使用预训练的权重来学习频谱图的有效性和如何构建更强大的集成模型以提高准确性。

Jul, 2020

大规模音频分类的 CNN 结构

本文介绍了使用几种不同的卷积神经网络对音频进行分类，发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效，使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。

Sep, 2016

ATGNN：音频标签图神经网络

本文介绍了一种名为 ATGNN 的新颖图神经网络架构，通过将谱图视作图结构来处理，实现了 CNN 的能力与图神经网络的全局信息共享能力的结合，并映射了可学习的类别嵌入和相应谱图区域之间的语义关系，通过在两个音频标记任务中的表现，发现 ATGNN 在 FSD50K 数据集上达到 0.585 的 mAP，在 AudioSet-balanced 数据集上达到 0.335 的 mAP，与基于 Transformer 的模型相比具有相当的结果，但参数数量显著较少。

Nov, 2023

注意力还是卷积：用于推理效率的音频语言模型中的 Transformer 编码器

通过本文研究发现，使用简单的自监督预训练音频模型能够实现与复杂的预训练模型相媲美的推理效率，同时采用自注意力模块与卷积模块相结合的语音转换器能够在 ASR 上取得最先进的性能表现，同时使用较低位权重量化技术的神经网络的简单方法，能够提高效率并防止在量化模块之间传播误差。

Nov, 2023

CMKD: 基于 CNN/Transformer 交替模型知识蒸馏的音频分类

本文研究了卷积神经网络和自注意力机制模型之间的交互作用，通过知识蒸馏将它们作为师生模型相互训练，在 FSD50K、AudioSet 和 ESC-50 等数据集上取得了新的最好成绩。

Mar, 2022

音频字幕转换器

该论文提出了一种全转换器的音频字幕生成器，该生成器能更好地模拟音频信号中的全局信息以及音频事件之间的时间关系，并且在最大的音频字幕数据集上显示出与其他最先进方法相竞争的性能。

Jul, 2021

使用原始波形的音乐自动标记样本级 CNN 架构

本文介绍了一种基于改进了的 1 维卷积神经网络架构的音乐自动标记方法，该方法采用最先进的图像分类模型 ResNets 和 SENets 构建块，并添加多级特征聚合。结果表明，此方法在 MagnaTagATune 数据集上取得了显著改进，并在 Million Song 数据集上取得了可比结果。

Oct, 2017