May, 2023

LEAN: 轻量高效的音频分类网络

TL;DR本文提出了一种轻量级的基于设备的深度学习模型 LENA,采用可训练的波形编码器、预训练的 YAMNet 和交叉注意力进行音频分类,结果表明在下游音频分类任务中,LENA 具有竞争性能,且适用于资源受限的设备。在 FSD50K 数据集上,LENA 的 mAP 为 0.445,内存占用仅为 4.5MB,比同一数据集的基准 on-device mAP 提高了 22%。