AST:音频频谱变换器
本文提出了一种使用未标注数据进行自监督预训练的方法,使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练,从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架,也是 AST 的自监督学习框架的首次探索。
Oct, 2021
本文介绍了一种名为 ATGNN 的新颖图神经网络架构,通过将谱图视作图结构来处理,实现了 CNN 的能力与图神经网络的全局信息共享能力的结合,并映射了可学习的类别嵌入和相应谱图区域之间的语义关系,通过在两个音频标记任务中的表现,发现 ATGNN 在 FSD50K 数据集上达到 0.585 的 mAP,在 AudioSet-balanced 数据集上达到 0.335 的 mAP,与基于 Transformer 的模型相比具有相当的结果,但参数数量显著较少。
Nov, 2023
本文研究了卷积神经网络和自注意力机制模型之间的交互作用,通过知识蒸馏将它们作为师生模型相互训练,在 FSD50K、AudioSet 和 ESC-50 等数据集上取得了新的最好成绩。
Mar, 2022
本文提出了一种基于注意力机制的神经网络(Atss-Net)来进行基于深度学习的目标说话人分离和语音增强,实验结果表明 Atss-Net 在频谱图领域比 CNN-LSTM 架构更有效,并且在语音增强方面也具有良好的性能。
May, 2020
在大规模音频数据集中,通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型,本文通过 Transformer 与 CNN 的知识蒸馏,提出了一种高效的 CNN 模型,通过引入动态非线性、动态卷积和注意机制构建了动态 CNN 块,实验证明这种动态 CNN 模型在音频标签任务中的性能复杂度权衡和参数效率方面超越了传统的高效 CNN 模型,并且在下游任务中表现出更好的性能,达到了 Transformer 的性能甚至在 AudioSet 和多个下游任务上超越了 Transformer。
Oct, 2023
在语音增强领域,我们提出了一种称为频谱注意力融合的方法,通过使用卷积模块替换自注意力层,提高了模型的计算效率,从而实现了与先进模型相媲美的结果,但参数规模更小(0.58M)的目标。
Aug, 2023
本文介绍了一种采用分层结构和分词 - 语义模块的音频 Transformer 模型 HTS-AT,实现了音频分类和事件本地化的任务,并在三个数据集上取得了 SOTA 结果。相比于以往的音频 Transformer,HTS-AT 拥有更小的模型参数和更短的训练时间。
Feb, 2022
本文提出一种优化和正则化变压器模型的新方法,使其在音频光谱图上实现了新的最优性能,同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。
Oct, 2021
基于 CoAtNet 的 ASCA 结合了 Transformer-convolution 混合架构、新颖的网络设计和注意力技术,结合数据增强和正则化策略,在 BirdCLEF2023 和 AudioSet (Balanced) 测试中分别获得了 81.2% 和 35.1% 的准确率,明显优于竞争方法。
Sep, 2023
通过引入纯 SSM(state space models)模型的音频分类模型 AuM,我们探讨了自注意力是否对音频分类任务至关重要,并在六个不同基准数据集上评估 AuM 的表现,结果表明它在性能上与已建立的 AST 模型相当或更好。
Jun, 2024