可解释的多标签音频分割的代理模型

Jan, 2024

可解释的多标签音频分割的代理模型

An Explainable Proxy Model for Multiabel Audio Segmentation

Théo Mariotte, Antonio Almudévar, Marie Tahon, Alsonfo Ortega

TL;DR本文提出了一种可解释的多标签分割模型，它可以同时解决语音活动、音乐、噪声和重叠说话检测的问题。该模型利用非负矩阵分解将用于分割的嵌入映射到频域，具有良好的解释性特征。实验结果表明，该模型在两个数据集上的性能与预训练的黑盒模型相似，同时能够在段落级别和整体级别上轻松识别用于决策的频率区间。

Abstract

audio signal segmentation is a key task for automatic audio indexing. It consists of detecting the boundaries of class-homogeneous segments in the signal. In many applications, explainable ai is a vital process f

audio signal segmentation explainable ai multilabel segmentation non-negative matrix factorization decision-making

发现论文，激发创造

通过非负矩阵分解和探测实现可解释的设计音频分割

提出了一种基于非负矩阵分解的可解释性音频分割模型，该模型在性能和从非负矩阵中提取的潜在表示的深度分析方面取得良好结果，为评估可解释性表示提供了新的视角。

Jun, 2024

通过词级音频片段和语言学特征解释语音分类模型

对于理解语音模型，我们引入了一种新的方法，通过在两个信息层面上对输入进行扰动，生成易于理解的解释，以揭示语音分类模型中每个与单词相关的音频片段对结果的影响，并回答 “如果我们以这种方式编辑音频信号，模型的预测结果会是什么？”。我们在英语和意大利语的两个语音分类任务上验证了我们的方法，发现解释对于模型的内在工作是准确的且对人类来说是可信的，为未来关于解释语音模型的研究铺平了道路。

Sep, 2023

深度聚类：用于分割和分离的判别嵌入

本文提出了一种称为 “深度聚类” 的深度学习框架，通过使用光谱图嵌入进行声源分离，从而实现类无关的信号分离，大大降低了领域分割成本，并且不依靠类别给出类标签，具有将不同源集合的潜力。

Aug, 2015

使用非负矩阵分解解决音频分类网络的可解释性问题

本文针对音频处理网络的可解释性提出两个主要问题设置，后续解释和设计解释。其中，我们提出了一种新颖的解释器设计，结合正则化中间嵌入和预学习 NMF 字典来生成直观的基于音频的解释，以增强与网络决策相关的输入信号的最相关部分。该方法在各种分类任务（包括多标签数据，真实世界的音频和音乐等）中得到了应用。

May, 2023

端到端的说话人分割，针对重叠感知的重分割

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021

强化解释性声音分类的焦点调制网络

通过使用最近提出的无注意力聚焦调制网络（FocalNets），这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务，评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比，我们的方法在准确性和可解释性方面更加出色，并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。

Feb, 2024

一种神经网络替代非负音频模型的方法

本文介绍了一种神经网络，可以代替非负矩阵分解（NMF），并进一步展示如何用它实现监督源分离。由于这种方法的可伸缩性，我们展示了如何实现比 NMF 方法更好的源分离性能，以及提出了多种可用于进一步提高性能的衍生结构。

Sep, 2016

利用归因使神经网络可解释化：应用于隐式信号预测

本文提出了一种新型的可解释深度神经网络的解释，通过使用掩蔽权重，可以将隐藏特征分解成几个输入限制的子网络，并训练成专家混合的增强模型，为复杂的机器学习模型提供说明，提高其效率，并实现了对合理解释进行推荐任务。

Aug, 2020

基于多模态变分自编码器的音频 - 视觉分割

通过提出的明确条件多模态变分自编码器（ECMVAE）来进行音频 - 视觉分割（AVS），从有效的表示学习的角度解决现有 AVS 方法中的问题，该方法的关键词包括明确条件多模态变分自编码器、音频 - 视觉分割、表示学习、交叉模态共享表示和音源分割。

Oct, 2023

解释和说明用于音频信号分类的深度神经网络

本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析，并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务，通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作，确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。

Jul, 2018