AudioProtoPNet:鸟类声音分类的可解释深度学习模型
介绍了 ProtoPNet,一种深度神经网络架构,该模型通过识别图像的原型部分并将原型部分的证据结合起来,类似于鸟类学家、医生和其他人解决图像分类任务的方式,提供了一定程度的可解释性,并在 CUB-200-2011 数据集和 Stanford Cars 数据集上实现了可比较的准确性。
Jun, 2018
使用 ProtoPNeXt 框架,结合贝叶斯超参数调整和角度原型相似度度量,有效提高了原始 ProtoPNet 在 CUB-200 上的准确性,同时优化了原型的可解释性,产生了具有显著改进的模型。
Jun, 2024
本文提出了一种基于生态学价值自动化分析和检测鸟类物种的专家系统的部署,该系统通过无线声学传感器网络和具有深度学习技术的深度神经网络来实现鸟类的准确分类,并对 VGG16、ResNet50 和 MobileNetV2 这三种深度神经网络的效果进行比较分析,发现 MobileNetV2 的 F1 得分优于 VGG16 而略低于 ResNet50,且模型大小小得多。
Jul, 2022
该研究探讨了自动化深度学习在多类鸟类声音分类中提高准确性和效率的潜力,与传统手动设计的深度学习模型进行对比。采用西地中海湿地鸟类数据集,研究了使用 AutoKeras(一种自动化机器学习框架)来自动化神经架构搜索和超参数调优。比较分析验证了我们的假设,即 AutoKeras 导出的模型在性能上一直优于传统模型(如 MobileNet、ResNet50 和 VGG16)。该研究突显出自动化深度学习在推动生物声学研究和模型方面的变革潜力,事实上,自动化技术消除了对手动特征工程和模型设计的需求,同时提高了性能。该研究通过样本、评估和报告的最佳实践,提升了这一新兴领域的可复制性。所有使用的代码可在 https://github.com/giuliotosato/AutoKeras-bioacustic 获取。
Nov, 2023
本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析,并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务,通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作,确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。
Jul, 2018
这篇论文提出了 ProtoArgNet,这是一种新颖的可解释的深度神经网络架构,用于图像分类,例如 ProtoPNet 中的原型部分学习。ProtoArgNet 使用超级原型,将原型部分组合成单一的原型类表示。此外,ProtoArgNet 采用多层感知器提高准确性,并依赖基于一种论证形式的可解释的阅读方式。ProtoArgNet 可以通过多层感知器 / 论证组件的稀疏化过程适应用户的认知需求。与其他原型部分学习方法不同,ProtoArgNet 可以识别图像中不同区域的不同原型部分之间的空间关系,类似于 CNN 在较早的层中捕捉到的模式之间的关系。
Nov, 2023
使用现代机器学习技术进行鸟类检测,无需人工重新校准,也不需要针对目标物种或目标环境中的声学条件进行预训练,可在远程监测数据中实现非常高的检索率,达到约 88%的 AUC 性能,并讨论了将这种检测方法整合到远程监测项目中的方法。新的声学监测数据集被提出并进行了详细的性能评估。
Jul, 2018
通过使用最近提出的无注意力聚焦调制网络(FocalNets),这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务,评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比,我们的方法在准确性和可解释性方面更加出色,并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。
Feb, 2024
Deformable ProtoPNet 是一种结合了深度学习和基于案例推理的可解释图片分类器。该模型通过与训练中学习到的原型进行比较来对输入图像进行分类,同时提供 “这看起来像那个” 的解释。与之前的方法不同的是,我们通过提出空间灵活的原型来解决空间固定原型的缺陷。每个原型由几个典型的部分组成,这些部分根据输入图像自适应地改变它们的相对空间位置。相比其他使用原型的基于案例的可解释模型,我们的方法在准确度和提供的解释的丰富性方面均达到了最新水平。
Nov, 2021