调谐：临床环境中有限数据的音频分类器性能分析

Feb, 2024

调谐：临床环境中有限数据的音频分类器性能分析

Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data

Hamza Mahdi, Eptehal Nashnoush, Rami Saab, Arjun Balachandar, Rishit Dagli...

TL;DR通过深度学习模型在临床环境中评估音频分类，针对反映真实世界前瞻性数据收集的小数据集，我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型，以及像 ViT、SWIN 和 AST 这样的 Transformer 模型，并将它们与预训练的音频模型（如 YAMNet 和 VGGish）进行比较。我们的方法强调了在特定临床数据上微调之前，在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术，发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明，在小数据集背景下，CNN 模型可以达到或超过 Transformer 模型的性能，其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性，为依赖音频分类的临床诊断提供了有价值的见解。

Abstract

This study assesses deep learning models for audio classification in a clinical setting with the constraint of small datasets reflecting r

deep learning audio classification small datasets pre-training clinical diagnostics

发现论文，激发创造

重新思考用于音频分类的 CNN 模型

本研究表明 ImageNet 预训练的标准深度 CNN 模型可以作为强大的音频分类基线网络，研究了使用预训练的权重来学习频谱图的有效性和如何构建更强大的集成模型以提高准确性。

Jul, 2020

LEAN: 轻量高效的音频分类网络

本文提出了一种轻量级的基于设备的深度学习模型 LENA，采用可训练的波形编码器、预训练的 YAMNet 和交叉注意力进行音频分类，结果表明在下游音频分类任务中，LENA 具有竞争性能，且适用于资源受限的设备。在 FSD50K 数据集上，LENA 的 mAP 为 0.445，内存占用仅为 4.5MB，比同一数据集的基准 on-device mAP 提高了 22％。

May, 2023

大规模音频分类的 CNN 结构

本文介绍了使用几种不同的卷积神经网络对音频进行分类，发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效，使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。

Sep, 2016

动态卷积神经网络作为高效的预训练音频模型

在大规模音频数据集中，通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型，本文通过 Transformer 与 CNN 的知识蒸馏，提出了一种高效的 CNN 模型，通过引入动态非线性、动态卷积和注意机制构建了动态 CNN 块，实验证明这种动态 CNN 模型在音频标签任务中的性能复杂度权衡和参数效率方面超越了传统的高效 CNN 模型，并且在下游任务中表现出更好的性能，达到了 Transformer 的性能甚至在 AudioSet 和多个下游任务上超越了 Transformer。

Oct, 2023

环境声音分类的深度学习方法第二次比较之正确的音频标记

本研究旨在通过对最大弱标注声音事件数据集 AudioSet 上的最新两类神经架构文章和加权后的 CNN 文章以及关键优化参数进行深入实验，为研究者和实践者提供性能，效率和优化过程之间的平衡见解。

Mar, 2022

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

自然语言预训练模型在自动语音评估语音障碍中的解释

训练和比较两种配置下的音频频谱变换器，用于语音障碍检测；应用注意力回传方法生成模型相关性图，分析模型在不同条件下的预测方式，证明随着模型微调，注意力的扩散减少，重点集中在特定音素区域。

Jun, 2024

基于音频谱图变换的 Patch-Mix 对比学习在呼吸音分类中的应用

这项研究使用深度学习算法和新型增强技术，通过预处理于视听数据集上的模型实现了高效的呼吸声分类以及肺病诊断，取得了 ICBHI 数据集上 4.08% 的最高成绩。

May, 2023

音频 Transformer 的 Patchout 高效训练

本文提出一种优化和正则化变压器模型的新方法，使其在音频光谱图上实现了新的最优性能，同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。

Oct, 2021

基于样本级 CNN 结构的原始波形音频分类

本文研究了音频领域中可扩展的分类模型，并使用两种不同的基于样本级的深度卷积神经网络模型实现。通过对各种声音类别的测试表明，这些模型达到了最先进的性能水平，并可视化了滤波器在网络中的变化。

Dec, 2017