AND：用于解释深度声音的音频网络解剖学

ICMLJun, 2024

AND：用于解释深度声音的音频网络解剖学

AND: Audio Network Dissection for Interpreting Deep Acoustic

Tung-Yu Wu, Yu-Xiang Lin, Tsui-Wei Weng

TL;DR介绍了 AND，第一个通过高响应音频自动建立自然语言解释的声学神经元的声学网络解剖框架，并通过大量实验证实了 AND 的准确和信息丰富的描述。同时，展示了 AND 在声音机器遗忘方面的潜在用途，通过基于生成的描述进行概念特定剪枝。最后，通过 AND 分析了两种声学模型行为：模型使用基本声学特征而非高层抽象概念来区分音频，训练策略影响模型行为和神经元的可解释性，有监督训练逐渐引导神经元狭窄注意力，而自监督学习鼓励神经元具有多语义性以探索高层特征。

Abstract

neuron-level interpretations aim to explain network behaviors and properties by investigating neurons responsive to specific perceptual or structural input patterns. Although there is emerging work in the vision and language domains, none is explored for →

neuron-level interpretations audio network dissection acoustic models llms audio machine unlearning

发现论文，激发创造

解释和说明用于音频信号分类的深度神经网络

本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析，并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务，通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作，确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。

Jul, 2018

探究神经网络语音模型中自动语音识别系统所编码的信息

通过神经网络的层级表达，在多个任务中评估自动语音识别声学模型的性能变化和目标任务，我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示，基于神经网络的声学模型拥有异质信息，似乎与音素识别没有相关性，例如情感、情绪或说话人身份，而低层隐藏层总体上对信息结构有用，而上层则倾向于删除对音素识别无用的信息。

Feb, 2024

描述和解剖：使用语言模型解释视觉网络中的神经元

本文提出了一种描述和解析（DnD）的新方法，利用多模态深度学习的最新进展来产生复杂的自然语言描述，无需带标签的训练数据或预定义的概念选择集。通过广泛的定性和定量分析，我们展示了 DnD 在提供更高质量神经元描述方面的优越性，并且与最佳基线相比，我们的方法平均提供了最高质量的标签，并且更有可能被选为神经元的最佳解释。

Mar, 2024

低资源行为注释的稀疏连接和分离训练深度神经网络：情侣疗法中的声学分类

研究提出了一种基于 SD-DNN 框架的行为识别系统，可以实时建模对话者的状态，适用于数据量有限的情况下。通过将声学特征集拆分为子集并训练多个不同的分类器来限制任何时候训练的参数数量。在夫妻治疗领域的多个行为代码的结果表明，该系统可以提高行为分类的准确性，同时也可以用于实时行为标注。

Jun, 2016

不变语音识别中的解缠

本研究探讨了深度神经网络在处理时间依赖性信号方面的表现，结果显示语音模型会丢弃特定说话人的噪声信号，而保留与任务相关的语音和音素信息，并在后续层级中出现更高层次的概念表示，此外还展示了深度学习在不同时刻从输入中提取任务相关特征，以实现不变语音识别的能力。

Mar, 2020

基于浅层深层注意力网络将听觉语音和脑电信号相关联

本篇论文提出了一种新的 Shallow-Deep Attention-based Network (SDANet) 来对不同刺激下的 EEG 信号进行正确分类，它采用了 Attention-based Correlation Module (ACM) 来全局地发现听觉语音和 EEG 信号之间的关系，并且使用了 Shallow-Deep Similarity Classification Module (SDSCM) 基于浅层和深层学习得到的嵌入来决定分类结果。同时，还使用了多种训练策略和数据增强来提高模型鲁棒性，并在 Auditory EEG challenge 提供的数据集上进行了实验验证，结果表明该模型在匹配 - 不匹配轨迹方面比基线模型有显著的提升。

Mar, 2023

强化解释性声音分类的焦点调制网络

通过使用最近提出的无注意力聚焦调制网络（FocalNets），这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务，评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比，我们的方法在准确性和可解释性方面更加出色，并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。

Feb, 2024

听海之声：使用人类听觉系统的神经模型预测海洋波浪

将人工神经网络与神经科学整合可显著提高任务性能，通过将回声状态网络重新设计来模拟大脑听觉系统，实现了实时海波预测，为海洋能源生产提供了一个高效的工具。

Apr, 2024

AENet: 学习视频分析的深度音频特征

提出了一种新的深度网络用于音频事件识别，名为 AENet，该网络采用卷积神经网络以在时间维度上对音频事件进行长时间频率结构的建模来训练端到端的音频事件检测系统，在事件识别、动作识别和视频亮点检测等视听任务中，结合 AENet 特征和视觉特征效果显著。

Jan, 2017

验证人工神经网络模型感应电动机的声学行为

评价多任务人工神经网络在预测感应电机的心理声学参数方面的应用，通过使用电动机功率信号的电学量和极数等多种输入参数，同时评估感应电机的声学质量，采用等效声压、响度、粗糙度和锐度作为输出指标，并分析其简单可解释模型中产品单元神经网络的最佳结果。

Jan, 2024