AST：音频频谱变换器

Apr, 2021

AST: Audio Spectrogram Transformer

Yuan Gong, Yu-An Chung, James Glass

TL;DR本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Abstract

In the past decade, convolutional neural networks (CNNs) have been widely adopted as the main building block for end-to-end audio classification models, which aim to learn a direct mapping from audio spectrograms

convolutional neural networks audio classification self-attention mechanism audio spectrogram transformer state-of-the-art results

发现论文，激发创造

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

ATGNN：音频标签图神经网络

本文介绍了一种名为 ATGNN 的新颖图神经网络架构，通过将谱图视作图结构来处理，实现了 CNN 的能力与图神经网络的全局信息共享能力的结合，并映射了可学习的类别嵌入和相应谱图区域之间的语义关系，通过在两个音频标记任务中的表现，发现 ATGNN 在 FSD50K 数据集上达到 0.585 的 mAP，在 AudioSet-balanced 数据集上达到 0.335 的 mAP，与基于 Transformer 的模型相比具有相当的结果，但参数数量显著较少。

Nov, 2023

CMKD: 基于 CNN/Transformer 交替模型知识蒸馏的音频分类

本文研究了卷积神经网络和自注意力机制模型之间的交互作用，通过知识蒸馏将它们作为师生模型相互训练，在 FSD50K、AudioSet 和 ESC-50 等数据集上取得了新的最好成绩。

Mar, 2022

基于注意力神经网络的目标说话人分离

本文提出了一种基于注意力机制的神经网络（Atss-Net）来进行基于深度学习的目标说话人分离和语音增强，实验结果表明 Atss-Net 在频谱图领域比 CNN-LSTM 架构更有效，并且在语音增强方面也具有良好的性能。

May, 2020

动态卷积神经网络作为高效的预训练音频模型

在大规模音频数据集中，通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型，本文通过 Transformer 与 CNN 的知识蒸馏，提出了一种高效的 CNN 模型，通过引入动态非线性、动态卷积和注意机制构建了动态 CNN 块，实验证明这种动态 CNN 模型在音频标签任务中的性能复杂度权衡和参数效率方面超越了传统的高效 CNN 模型，并且在下游任务中表现出更好的性能，达到了 Transformer 的性能甚至在 AudioSet 和多个下游任务上超越了 Transformer。

Oct, 2023

高效单声道语音增强的谱注意力融合

在语音增强领域，我们提出了一种称为频谱注意力融合的方法，通过使用卷积模块替换自注意力层，提高了模型的计算效率，从而实现了与先进模型相媲美的结果，但参数规模更小（0.58M）的目标。

Aug, 2023

HTS-AT：一种用于声音分类和检测的层次化 Token - 语义音频变换器

本文介绍了一种采用分层结构和分词 - 语义模块的音频 Transformer 模型 HTS-AT，实现了音频分类和事件本地化的任务，并在三个数据集上取得了 SOTA 结果。相比于以往的音频 Transformer，HTS-AT 拥有更小的模型参数和更短的训练时间。

Feb, 2022

音频 Transformer 的 Patchout 高效训练

本文提出一种优化和正则化变压器模型的新方法，使其在音频光谱图上实现了新的最优性能，同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。

Oct, 2021

Asca：少量音频数据揭示更多洞见

基于 CoAtNet 的 ASCA 结合了 Transformer-convolution 混合架构、新颖的网络设计和注意力技术，结合数据增强和正则化策略，在 BirdCLEF2023 和 AudioSet (Balanced) 测试中分别获得了 81.2% 和 35.1% 的准确率，明显优于竞争方法。

Sep, 2023

音频曼巴：用于音频表示学习的双向状态空间模型

通过引入纯 SSM（state space models）模型的音频分类模型 AuM，我们探讨了自注意力是否对音频分类任务至关重要，并在六个不同基准数据集上评估 AuM 的表现，结果表明它在性能上与已建立的 AST 模型相当或更好。

Jun, 2024