本文介绍了使用几种不同的卷积神经网络对音频进行分类,发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效,使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。
Sep, 2016
本文提出了一种低复杂度卷积神经网络框架及相应模型压缩技术和结合多低复杂度卷积神经网络的集成框架,实验表明该框架在声场分类任务上能够获得较好的性能提升。
Jul, 2022
本文提出了一种轻量级的基于设备的深度学习模型 LENA,采用可训练的波形编码器、预训练的 YAMNet 和交叉注意力进行音频分类,结果表明在下游音频分类任务中,LENA 具有竞争性能,且适用于资源受限的设备。在 FSD50K 数据集上,LENA 的 mAP 为 0.445,内存占用仅为 4.5MB,比同一数据集的基准 on-device mAP 提高了 22%。
May, 2023
提出了一种新的深度网络用于音频事件识别,名为 AENet,该网络采用卷积神经网络以在时间维度上对音频事件进行长时间频率结构的建模来训练端到端的音频事件检测系统,在事件识别、动作识别和视频亮点检测等视听任务中,结合 AENet 特征和视觉特征效果显著。
Jan, 2017
该论文报道了我们在 DCASE 2016 挑战赛中提交的音频场景识别系统,使用自动构建的标签树进行特征提取,并在其基础上利用卷积神经网络对场景进行识别,取得了相对于基线系统的绝对提升,其开发数据和测试数据的综合识别准确率分别为 81.2% 和 83.3%。
Jul, 2016
本研究提出了一种简单而高效的卷积神经网络(CNN)架构,用于鲁棒的音频事件识别,并采用变尺寸的卷积滤波器和 1-max 池化方案等创新特性,在标准的鲁棒音频事件识别任务上表现不但表现出最新技术水准,并且在识别准确率上优于其他深度网络架构 4.5%, 相当于 76.3%的相对误差降低。
Apr, 2016
本文提出了一种基于卷积神经网络的双阶段系统来改善数据驱动声景分类的鲁棒性,通过探究不同的神经网络架构和数据扩充方案以及利用 class activation mapping 进行神经元显著性分析,该系统在 DCASE 2020 Task 1a 上达到了目前最高的准确率 81.9%。
Nov, 2020
本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性,并在 LRS2 和 LRS3 数据集上进行了实验。结果表明,使用音频和视觉模态可以更好地识别存在环境噪声的语音,并显着加速训练,达到了 2.3%和 1.8%的字错误率。
Jan, 2023
本研究提出了一种新的声音事件检测方法,使用卷积神经网络结合大的输入层来提取长时频结构特征,同时采用数据增强方法防止过拟合,实验表明该方法在声音事件检测上表现优异,超过了现有方法,取得了 16% 的绝对提升。
通过网络修剪和量化的方法,我们成功地压缩了两个用于检测 COVID-19 的模型,同时不降低模型的预测性能,并实现了模型文件大小的大幅减小以及相应推理时间的缩短。
Sep, 2023