强化解释性声音分类的焦点调制网络

Feb, 2024

强化解释性声音分类的焦点调制网络

Focal Modulation Networks for Interpretable Sound Classification

Luca Della Libera, Cem Subakan, Mirco Ravanelli

TL;DR通过使用最近提出的无注意力聚焦调制网络（FocalNets），这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务，评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比，我们的方法在准确性和可解释性方面更加出色，并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。

Abstract

The increasing success of deep neural networks has raised concerns about their inherent black-box nature, posing challenges related to interpretability and trust. While there has been extensive exploration of int

deep neural networks interpretability audio domain attention-free focal modulation networks environmental sound classification

发现论文，激发创造

使用非负矩阵分解解决音频分类网络的可解释性问题

本文针对音频处理网络的可解释性提出两个主要问题设置，后续解释和设计解释。其中，我们提出了一种新颖的解释器设计，结合正则化中间嵌入和预学习 NMF 字典来生成直观的基于音频的解释，以增强与网络决策相关的输入信号的最相关部分。该方法在各种分类任务（包括多标签数据，真实世界的音频和音乐等）中得到了应用。

May, 2023

解释和说明用于音频信号分类的深度神经网络

本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析，并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务，通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作，确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。

Jul, 2018

可解释音频标签的感知音乐特征

在音乐流媒体平台时代，自动标记音乐音频的任务引起了广泛关注，驱使研究人员设计旨在提高标准数据集上性能指标的方法。本研究探讨了可解释性在自动音乐标记领域的相关性，构建了一个包含三种不同信息提取技术的工作流程，并使用这些特征训练了一个可解释的机器学习模型进行标签预测。通过在 MTG-Jamendo 数据集和 GTZAN 数据集上进行实验，我们的方法在两个任务中均超过了基线模型的性能，并在某些情况下展现出与当前最先进方法的竞争力。我们得出结论，在某些情况下，解释性的价值超过了性能的下降。

Dec, 2023

朝着端到端可解释的卷积神经网络发展音波信号

用卷积神经网络构建高效且可解释的端到端音频深度学习模型，通过在三个标准语音情感识别数据集上的实验验证，我们的框架在效率和可解释性方面表现优越，对抗 Mel 频谱特征有高达 7% 的改进；还揭示了前端层在处理复杂的长波形模式方面的高效性和可解释性，通过 PhysioNet 心音数据库的实例进行了论证，为处理原始波形数据构建了可移植的有效模型解决方案。

May, 2024

聚焦调制网络

本研究提出了一种基于聚焦调制机制的聚焦调制网络 (FocalNets), 其中自注意力机制被完全替换，实现了对于视觉信息的建模，并在图像分类、目标检测和分割等任务中取得了优越表现。

Mar, 2022

用时间变化的特征调制建模黑盒音频效果

该研究提出了一种将时间变化的特征线性调制整合进现有的时间卷积背骨架中的方法，以更准确地捕获长时间尺度上的音频效应，从而增强深度学习方法对音频效应的建模能力。

Nov, 2022

通过物理知识引导的多任务转换器的嵌入网络理解听觉诱发的脑信号

通过物理启发嵌入网络和深度学习技术，我们提出了一种创新的多任务学习模型 PEMT-Net，用于增强多任务听觉信号解码性能，从而超越现有方法并为理解大脑处理复杂听觉信息的机制提供新的见解。

Jun, 2024

COVID-19 检测深度模型可解释性分析

本研究使用卷积神经网络检测 COVID-19，使用谱图和 F0 等特征解释神经网络判定过程，生成热图来捕捉模型决策过程，结果显示谱图相关能量高的区域对决策过程起主导作用，同时 F0 也有帮助。研究表明，即使在训练集中存在虚假数据的情况下，所研究的模型也可以做出无偏差的决策，为基于解释性人工智能的研究提供了参考。

Nov, 2022

感应网络：用于自监督声源定位的音频 - 视觉模态缺口填补

通过引入感应网络和自适应阈值选择策略，本研究提出了一种用于自我监督声源定位的方法，以解决模态不一致性问题，并实现音频 - 视觉的一致对齐。在 SoundNet-Flickr 和 VGG-Sound Source 数据集上的实验证实了其在不同挑战场景中相较于其他最先进方法的优越性能。

Aug, 2023

通过非负矩阵分解和探测实现可解释的设计音频分割

提出了一种基于非负矩阵分解的可解释性音频分割模型，该模型在性能和从非负矩阵中提取的潜在表示的深度分析方面取得良好结果，为评估可解释性表示提供了新的视角。

Jun, 2024