AudioProtoPNet：鸟类声音分类的可解释深度学习模型

Apr, 2024

AudioProtoPNet：鸟类声音分类的可解释深度学习模型

AudioProtoPNet: An interpretable deep learning model for bird sound classification

René Heinrich, Bernhard Sick, Christoph Scholz

TL;DR這篇研究論文提出了一種基於 ConvNeXt 骨幹架構和 Prototypical Part Network（ProtoPNet）的音頻分類方法，通過原型模式學習每種鳥類的特徵模式，利用譜圖進行新數據的分類，從而同時提供可解釋性的模型決策解釋。

Abstract

Recently, scientists have proposed several deep learning models to monitor the diversity of bird species. These models can detect bird species

deep learning models bird species acoustic signals interpretability audio classification

发现论文，激发创造

这像那样：用深度学习进行可解释的图像识别

介绍了 ProtoPNet，一种深度神经网络架构，该模型通过识别图像的原型部分并将原型部分的证据结合起来，类似于鸟类学家、医生和其他人解决图像分类任务的方式，提供了一定程度的可解释性，并在 CUB-200-2011 数据集和 Stanford Cars 数据集上实现了可比较的准确性。

Jun, 2018

深度音频嵌入解析鸟鸣

研究使用半监督学习方法通过深度学习和声学监测来掌握鸟类叫声和环境噪声的特征，以提高环境声学数据的分类精度和深入了解环境声学数据的潜在结构。

Aug, 2021

看起来比那个更好：使用 ProtoPNeXt 获得更好的可解释模型

使用 ProtoPNeXt 框架，结合贝叶斯超参数调整和角度原型相似度度量，有效提高了原始 ProtoPNet 在 CUB-200 上的准确性，同时优化了原型的可解释性，产生了具有显著改进的模型。

Jun, 2024

评估小型脚印深度学习方法在新标注数据集上的西地中海湿地鸟类分类

本文提出了一种基于生态学价值自动化分析和检测鸟类物种的专家系统的部署，该系统通过无线声学传感器网络和具有深度学习技术的深度神经网络来实现鸟类的准确分类，并对 VGG16、ResNet50 和 MobileNetV2 这三种深度神经网络的效果进行比较分析，发现 MobileNetV2 的 F1 得分优于 VGG16 而略低于 ResNet50，且模型大小小得多。

Jul, 2022

生物声音的自动深度学习

该研究探讨了自动化深度学习在多类鸟类声音分类中提高准确性和效率的潜力，与传统手动设计的深度学习模型进行对比。采用西地中海湿地鸟类数据集，研究了使用 AutoKeras（一种自动化机器学习框架）来自动化神经架构搜索和超参数调优。比较分析验证了我们的假设，即 AutoKeras 导出的模型在性能上一直优于传统模型（如 MobileNet、ResNet50 和 VGG16）。该研究突显出自动化深度学习在推动生物声学研究和模型方面的变革潜力，事实上，自动化技术消除了对手动特征工程和模型设计的需求，同时提高了性能。该研究通过样本、评估和报告的最佳实践，提升了这一新兴领域的可复制性。所有使用的代码可在 https://github.com/giuliotosato/AutoKeras-bioacustic 获取。

Nov, 2023

解释和说明用于音频信号分类的深度神经网络

本文旨在探究如何使用 layer-wise relevance propagation 技术在音频领域内进行深度神经网络的解释性分析，并使用一个英语语音数字数据集对于语音数字和演讲者性别进行分类任务，通过对 LRP 得到的相关性分数进行假设和输入数据的系统操作，确认了在音频数据处理过程中的深度神经网络对相关特征的高度依赖性。

Jul, 2018

ProtoArgNet：具有超级原型和论证的可解释图像分类

这篇论文提出了 ProtoArgNet，这是一种新颖的可解释的深度神经网络架构，用于图像分类，例如 ProtoPNet 中的原型部分学习。ProtoArgNet 使用超级原型，将原型部分组合成单一的原型类表示。此外，ProtoArgNet 采用多层感知器提高准确性，并依赖基于一种论证形式的可解释的阅读方式。ProtoArgNet 可以通过多层感知器 / 论证组件的稀疏化过程适应用户的认知需求。与其他原型部分学习方法不同，ProtoArgNet 可以识别图像中不同区域的不同原型部分之间的空间关系，类似于 CNN 在较早的层中捕捉到的模式之间的关系。

Nov, 2023

通过深度学习自动识别鸟类声音：首届鸟类声音检测挑战赛

使用现代机器学习技术进行鸟类检测，无需人工重新校准，也不需要针对目标物种或目标环境中的声学条件进行预训练，可在远程监测数据中实现非常高的检索率，达到约 88％的 AUC 性能，并讨论了将这种检测方法整合到远程监测项目中的方法。新的声学监测数据集被提出并进行了详细的性能评估。

Jul, 2018

强化解释性声音分类的焦点调制网络

通过使用最近提出的无注意力聚焦调制网络（FocalNets），这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务，评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比，我们的方法在准确性和可解释性方面更加出色，并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。

Feb, 2024

Deformable ProtoPNet：使用可变形原型的可解释图像分类器

Deformable ProtoPNet 是一种结合了深度学习和基于案例推理的可解释图片分类器。该模型通过与训练中学习到的原型进行比较来对输入图像进行分类，同时提供 “这看起来像那个” 的解释。与之前的方法不同的是，我们通过提出空间灵活的原型来解决空间固定原型的缺陷。每个原型由几个典型的部分组成，这些部分根据输入图像自适应地改变它们的相对空间位置。相比其他使用原型的基于案例的可解释模型，我们的方法在准确度和提供的解释的丰富性方面均达到了最新水平。

Nov, 2021