音频分类中的过度参数化和泛化
本文介绍了使用几种不同的卷积神经网络对音频进行分类,发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效,使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。
Sep, 2016
本文研究了不同音频任务中已知卷积神经网络架构的变体性能。结果表明,调整卷积神经网络的感受野对其广义性至关重要。通过跨越多个音频分类和标记任务进行系统测试,我们提出了几种系统方法来控制 CNN 的 RF,并表明使用我们提出的方法对 CNN 的 RF 进行正则化可以显着提高模型的广义性,在多项任务中取得了最优结果。
May, 2021
本文提出了一种使用深度卷积神经网络和音频数据增强相结合的方法来进行环境声音分类,通过对增强技术的探索发现在不同类别下所使用的增强技术会对分类准确率产生影响。实验结果表明,该方法在环境声音分类上表现出了最先进的效果。
Aug, 2016
本文研究了音频领域中可扩展的分类模型,并使用两种不同的基于样本级的深度卷积神经网络模型实现。通过对各种声音类别的测试表明,这些模型达到了最先进的性能水平,并可视化了滤波器在网络中的变化。
Dec, 2017
深度网络的概括性是未见数据的关键要求,但其与分类准确性的关系尚不清楚。使用极简的视觉数据集和一种概括能力度量,我们展示了受欢迎的网络,从深度卷积网络(CNN)到 Transformer,在层级和体系结构的不同方面对未见类别的外推能力存在差异。准确性不能很好地预测概括能力,并且概括能力与层级深度变化的关系是非单调的。
Feb, 2024
本文研究了利用多通道卷积神经网络进行音频场景分类,通过 mixup 方法进行数据增强,相比传统方法有更高的精度和鲁棒性,并且可以在评估数据上减少泛化误差。
May, 2018
本文研究了卷积神经网络在音频处理任务中的表现。通过对 Receptive Field 的分析,发现 RF 对模型的泛化能力很重要。通过系统地调整 CNNs 中的 RF,可以让深层模型表现得更好。
Jul, 2019
通过深度学习模型在临床环境中评估音频分类,针对反映真实世界前瞻性数据收集的小数据集,我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型,以及像 ViT、SWIN 和 AST 这样的 Transformer 模型,并将它们与预训练的音频模型(如 YAMNet 和 VGGish)进行比较。我们的方法强调了在特定临床数据上微调之前,在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术,发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明,在小数据集背景下,CNN 模型可以达到或超过 Transformer 模型的性能,其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性,为依赖音频分类的临床诊断提供了有价值的见解。
Feb, 2024
本文提出了一种利用深度卷积神经网络从原始波形数据中直接学习音频模型的方法,通过批归一化、剩余学习和精心设计的下采样实现高效处理音频波形,并在环境声音识别任务中取得了 15% 的性能提升,达到了使用对数 - 梅尔特征的模型的性能。
Oct, 2016
本研究破解了学习理论中的一道难题,证明了深度卷积神经网络(CNN)是通用的,可以通过增加深度来达到任意精度的连续函数逼近,并且在处理大维度数据方面非常高效。同时我们的研究证明了卷积在深度 CNN 中的重要作用。
May, 2018