使用非负矩阵分解解决音频分类网络的可解释性问题

May, 2023

使用非负矩阵分解解决音频分类网络的可解释性问题

Tackling Interpretability in Audio Classification Networks with Non-negative Matrix Factorization

Jayneel Parekh, Sanjeel Parekh, Pavlo Mozharovskyi, Gaël Richard, Florence d'Alché-Buc

TL;DR本文针对音频处理网络的可解释性提出两个主要问题设置，后续解释和设计解释。其中，我们提出了一种新颖的解释器设计，结合正则化中间嵌入和预学习 NMF 字典来生成直观的基于音频的解释，以增强与网络决策相关的输入信号的最相关部分。该方法在各种分类任务（包括多标签数据，真实世界的音频和音乐等）中得到了应用。

Abstract

This paper tackles two major problem settings for interpretability of audio processing networks, post-hoc and by-design interpretation. For post-hoc interpretation, we aim to interpret decisions of a network in terms of high-level audio objects that are also listenable for the end-user

audio processing interpretability non-negative matrix factorization machine learning classification

发现论文，激发创造

通过非负矩阵分解和探测实现可解释的设计音频分割

提出了一种基于非负矩阵分解的可解释性音频分割模型，该模型在性能和从非负矩阵中提取的潜在表示的深度分析方面取得良好结果，为评估可解释性表示提供了新的视角。

Jun, 2024

一种神经网络替代非负音频模型的方法

本文介绍了一种神经网络，可以代替非负矩阵分解（NMF），并进一步展示如何用它实现监督源分离。由于这种方法的可伸缩性，我们展示了如何实现比 NMF 方法更好的源分离性能，以及提出了多种可用于进一步提高性能的衍生结构。

Sep, 2016

强化解释性声音分类的焦点调制网络

通过使用最近提出的无注意力聚焦调制网络（FocalNets），这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务，评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比，我们的方法在准确性和可解释性方面更加出色，并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。

Feb, 2024

重新思考隐式神经表示的非负矩阵分解

非负矩阵分解 (Non-negative Matrix Factorization, NMF) 是一种强大的用于分析规则采样数据的技术，本文将 NMF 表述为连续函数的形式，并展示 NMF 可以扩展到更多不需要规则采样的信号类别。

Apr, 2024

基于非负矩阵分解的多模态多视角聚类

通过结合相关对象，无监督机器学习技术旨在揭示数据集中的潜在模式。在本文中，我们提出了一项关于多模态聚类算法的研究，并提出了一种名为多模态多视图非负矩阵分解的新方法，其中我们分析了多个局部 NMF 模型的协同作用。实验结果表明，所提出的方法具有较大的价值，并使用多种数据集进行评估，相比于现有的方法，获得了非常有前景的结果。

Aug, 2023

信号和数据分析的非负矩阵分解：可辨识性，算法和应用

本文从可识别性的角度出发，详细介绍了非负矩阵分解的模型可识别性及其与算法和应用的联系，帮助研究人员和研究生掌握 NMF 的本质和洞见，避免由于无法识别的 NMF 公式导致的典型‘陷阱’。同时，本文也帮助实践者选择 / 设计适合其问题的分解工具。

Mar, 2018

解释和说明用于音频信号分类的深度神经网络

本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析，并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务，通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作，确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。

Jul, 2018

使用非负矩阵分解的有监督和无监督语音增强

本文提出了一种基于非负矩阵分解的贝叶斯监督算法，通过使用 HMM 和在线学习模型解决了模型训练时的匹配问题，并在实验中得出该方法比竞争方法表现更优的结论。

Sep, 2017

通过数据预处理实现稀疏和唯一的非负矩阵分解

本文介绍了一种基于 M 矩阵理论和非负矩阵分解的几何解释，通过对非负输入数据矩阵的预处理实现更为适合求解的 NMF 问题，其解具有更好的稀疏性和优化性，适用于多种图像数据集。

Apr, 2012

可解释音频标签的感知音乐特征

在音乐流媒体平台时代，自动标记音乐音频的任务引起了广泛关注，驱使研究人员设计旨在提高标准数据集上性能指标的方法。本研究探讨了可解释性在自动音乐标记领域的相关性，构建了一个包含三种不同信息提取技术的工作流程，并使用这些特征训练了一个可解释的机器学习模型进行标签预测。通过在 MTG-Jamendo 数据集和 GTZAN 数据集上进行实验，我们的方法在两个任务中均超过了基线模型的性能，并在某些情况下展现出与当前最先进方法的竞争力。我们得出结论，在某些情况下，解释性的价值超过了性能的下降。

Dec, 2023