Feb, 2024

调谐:临床环境中有限数据的音频分类器性能分析

TL;DR通过深度学习模型在临床环境中评估音频分类,针对反映真实世界前瞻性数据收集的小数据集,我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型,以及像 ViT、SWIN 和 AST 这样的 Transformer 模型,并将它们与预训练的音频模型(如 YAMNet 和 VGGish)进行比较。我们的方法强调了在特定临床数据上微调之前,在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术,发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明,在小数据集背景下,CNN 模型可以达到或超过 Transformer 模型的性能,其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性,为依赖音频分类的临床诊断提供了有价值的见解。