Oct, 2023

动态卷积神经网络作为高效的预训练音频模型

TL;DR在大规模音频数据集中,通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型,本文通过 Transformer 与 CNN 的知识蒸馏,提出了一种高效的 CNN 模型,通过引入动态非线性、动态卷积和注意机制构建了动态 CNN 块,实验证明这种动态 CNN 模型在音频标签任务中的性能复杂度权衡和参数效率方面超越了传统的高效 CNN 模型,并且在下游任务中表现出更好的性能,达到了 Transformer 的性能甚至在 AudioSet 和多个下游任务上超越了 Transformer。