Mar, 2023

多尺度音频光谱变换器用于有效的音频分类

TL;DR这篇研究提出了一种名为多尺度音频谱变换器(MAST)的方法,它采用分层表示学习来提高音频分类的效率,相较于 AST,MAST 在没有外部训练数据的情况下,在 Kinetics-Sounds,Epic-Kitchens-100 和 VGGSound 数据集上的准确度提高了 22.2%、4.4%和 4.7%,同时比 AST 更加高效。