Jan, 2024

可解释的多标签音频分割的代理模型

TL;DR本文提出了一种可解释的多标签分割模型,它可以同时解决语音活动、音乐、噪声和重叠说话检测的问题。该模型利用非负矩阵分解将用于分割的嵌入映射到频域,具有良好的解释性特征。实验结果表明,该模型在两个数据集上的性能与预训练的黑盒模型相似,同时能够在段落级别和整体级别上轻松识别用于决策的频率区间。