AND:用于解释深度声音的音频网络解剖学
本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析,并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务,通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作,确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。
Jul, 2018
通过神经网络的层级表达,在多个任务中评估自动语音识别声学模型的性能变化和目标任务,我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示,基于神经网络的声学模型拥有异质信息,似乎与音素识别没有相关性,例如情感、情绪或说话人身份,而低层隐藏层总体上对信息结构有用,而上层则倾向于删除对音素识别无用的信息。
Feb, 2024
本文提出了一种描述和解析(DnD)的新方法,利用多模态深度学习的最新进展来产生复杂的自然语言描述,无需带标签的训练数据或预定义的概念选择集。通过广泛的定性和定量分析,我们展示了 DnD 在提供更高质量神经元描述方面的优越性,并且与最佳基线相比,我们的方法平均提供了最高质量的标签,并且更有可能被选为神经元的最佳解释。
Mar, 2024
研究提出了一种基于 SD-DNN 框架的行为识别系统,可以实时建模对话者的状态,适用于数据量有限的情况下。通过将声学特征集拆分为子集并训练多个不同的分类器来限制任何时候训练的参数数量。在夫妻治疗领域的多个行为代码的结果表明,该系统可以提高行为分类的准确性,同时也可以用于实时行为标注。
Jun, 2016
本研究探讨了深度神经网络在处理时间依赖性信号方面的表现,结果显示语音模型会丢弃特定说话人的噪声信号,而保留与任务相关的语音和音素信息,并在后续层级中出现更高层次的概念表示,此外还展示了深度学习在不同时刻从输入中提取任务相关特征,以实现不变语音识别的能力。
Mar, 2020
本篇论文提出了一种新的 Shallow-Deep Attention-based Network (SDANet) 来对不同刺激下的 EEG 信号进行正确分类,它采用了 Attention-based Correlation Module (ACM) 来全局地发现听觉语音和 EEG 信号之间的关系,并且使用了 Shallow-Deep Similarity Classification Module (SDSCM) 基于浅层和深层学习得到的嵌入来决定分类结果。同时,还使用了多种训练策略和数据增强来提高模型鲁棒性,并在 Auditory EEG challenge 提供的数据集上进行了实验验证,结果表明该模型在匹配 - 不匹配轨迹方面比基线模型有显著的提升。
Mar, 2023
通过使用最近提出的无注意力聚焦调制网络(FocalNets),这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务,评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比,我们的方法在准确性和可解释性方面更加出色,并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。
Feb, 2024
将人工神经网络与神经科学整合可显著提高任务性能,通过将回声状态网络重新设计来模拟大脑听觉系统,实现了实时海波预测,为海洋能源生产提供了一个高效的工具。
Apr, 2024
提出了一种新的深度网络用于音频事件识别,名为 AENet,该网络采用卷积神经网络以在时间维度上对音频事件进行长时间频率结构的建模来训练端到端的音频事件检测系统,在事件识别、动作识别和视频亮点检测等视听任务中,结合 AENet 特征和视觉特征效果显著。
Jan, 2017
评价多任务人工神经网络在预测感应电机的心理声学参数方面的应用,通过使用电动机功率信号的电学量和极数等多种输入参数,同时评估感应电机的声学质量,采用等效声压、响度、粗糙度和锐度作为输出指标,并分析其简单可解释模型中产品单元神经网络的最佳结果。
Jan, 2024