Feb, 2024

强化解释性声音分类的焦点调制网络

TL;DR通过使用最近提出的无注意力聚焦调制网络(FocalNets),这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务,评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比,我们的方法在准确性和可解释性方面更加出色,并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。