重新思考用于音频分类的 CNN 模型
通过深度学习模型在临床环境中评估音频分类,针对反映真实世界前瞻性数据收集的小数据集,我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型,以及像 ViT、SWIN 和 AST 这样的 Transformer 模型,并将它们与预训练的音频模型(如 YAMNet 和 VGGish)进行比较。我们的方法强调了在特定临床数据上微调之前,在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术,发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明,在小数据集背景下,CNN 模型可以达到或超过 Transformer 模型的性能,其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性,为依赖音频分类的临床诊断提供了有价值的见解。
Feb, 2024
本文介绍了使用几种不同的卷积神经网络对音频进行分类,发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效,使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。
Sep, 2016
在大规模音频数据集中,通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型,本文通过 Transformer 与 CNN 的知识蒸馏,提出了一种高效的 CNN 模型,通过引入动态非线性、动态卷积和注意机制构建了动态 CNN 块,实验证明这种动态 CNN 模型在音频标签任务中的性能复杂度权衡和参数效率方面超越了传统的高效 CNN 模型,并且在下游任务中表现出更好的性能,达到了 Transformer 的性能甚至在 AudioSet 和多个下游任务上超越了 Transformer。
Oct, 2023
本文研究了音频领域中可扩展的分类模型,并使用两种不同的基于样本级的深度卷积神经网络模型实现。通过对各种声音类别的测试表明,这些模型达到了最先进的性能水平,并可视化了滤波器在网络中的变化。
Dec, 2017
本研究通过使用非经过训练的 CNN 作为特征提取器,比较了不同随机权重架构在音频分类中的效果,并提供了使用深度神经网络中架构本身进行音频分类的重要证据。
May, 2018
本文提出了一种基于卷积神经网络(CNN)架构的音乐自动标记技术,该技术融合了多层级和多尺度特征,通过三个步骤的训练方式在音乐自动标记中表现出高效性并在 MagnaTagATune 数据集和 Million Song 数据集上超越了之前的 state-of-the-arts。实验证明该架构同样适用于迁移学习。
Mar, 2017
本文提出了一种使用深度卷积神经网络和音频数据增强相结合的方法来进行环境声音分类,通过对增强技术的探索发现在不同类别下所使用的增强技术会对分类准确率产生影响。实验结果表明,该方法在环境声音分类上表现出了最先进的效果。
Aug, 2016
本文提出一种优化和正则化变压器模型的新方法,使其在音频光谱图上实现了新的最优性能,同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。
Oct, 2021
本研究旨在通过对最大弱标注声音事件数据集 AudioSet 上的最新两类神经架构文章和加权后的 CNN 文章以及关键优化参数进行深入实验,为研究者和实践者提供性能,效率和优化过程之间的平衡见解。
Mar, 2022
本研究提出了一种基于卷积神经网络的弱标记音频数据分类框架,可用于转移学习,并证明了该方法对于领域和任务适应都具有有效性,此外还展示了该方法有助于捕捉语义含义和关系。
Nov, 2017