AclNet：高效端到端音频分类卷积神经网络

Nov, 2018

AclNet：高效端到端音频分类卷积神经网络

AclNet: efficient end-to-end audio classification CNN

Jonathan J Huang, Juan Jose Alvarado Leanos

TL;DR本研究提出了一种高效的端到端卷积神经网络架构 AclNet，该网络采用数据增强和正则化训练后，在 ESC-50 语料库上取得了 85:65％的准确率，且高效的运算和内存需求可开启能源高效平台的始终在线推理。

Abstract

We propose an efficient end-to-end convolutional neural network architecture, AclNet, for audio classification. When trained with our data augmen

end-to-end convolutional neural network audio classification data augmentation esc-50 corpus computational efficiency

发现论文，激发创造

大规模音频分类的 CNN 结构

本文介绍了使用几种不同的卷积神经网络对音频进行分类，发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效，使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。

Sep, 2016

低复杂度 CNN 音场分类

本文提出了一种低复杂度卷积神经网络框架及相应模型压缩技术和结合多低复杂度卷积神经网络的集成框架，实验表明该框架在声场分类任务上能够获得较好的性能提升。

Jul, 2022

LEAN: 轻量高效的音频分类网络

本文提出了一种轻量级的基于设备的深度学习模型 LENA，采用可训练的波形编码器、预训练的 YAMNet 和交叉注意力进行音频分类，结果表明在下游音频分类任务中，LENA 具有竞争性能，且适用于资源受限的设备。在 FSD50K 数据集上，LENA 的 mAP 为 0.445，内存占用仅为 4.5MB，比同一数据集的基准 on-device mAP 提高了 22％。

May, 2023

AENet: 学习视频分析的深度音频特征

提出了一种新的深度网络用于音频事件识别，名为 AENet，该网络采用卷积神经网络以在时间维度上对音频事件进行长时间频率结构的建模来训练端到端的音频事件检测系统，在事件识别、动作识别和视频亮点检测等视听任务中，结合 AENet 特征和视觉特征效果显著。

Jan, 2017

CNN-LTE：一类基于标签树嵌入的 1-X 池化卷积神经网络，用于音频场景识别

该论文报道了我们在 DCASE 2016 挑战赛中提交的音频场景识别系统，使用自动构建的标签树进行特征提取，并在其基础上利用卷积神经网络对场景进行识别，取得了相对于基线系统的绝对提升，其开发数据和测试数据的综合识别准确率分别为 81.2% 和 83.3%。

Jul, 2016

具有 1-Max 池化卷积神经网络的强健音频事件识别

本研究提出了一种简单而高效的卷积神经网络（CNN）架构，用于鲁棒的音频事件识别，并采用变尺寸的卷积滤波器和 1-max 池化方案等创新特性，在标准的鲁棒音频事件识别任务上表现不但表现出最新技术水准，并且在识别准确率上优于其他深度网络架构 4.5％，相当于 76.3％的相对误差降低。

Apr, 2016

设备鲁棒声场分类的两阶段方法

本文提出了一种基于卷积神经网络的双阶段系统来改善数据驱动声景分类的鲁棒性，通过探究不同的神经网络架构和数据扩充方案以及利用 class activation mapping 进行神经元显著性分析，该系统在 DCASE 2020 Task 1a 上达到了目前最高的准确率 81.9%。

Nov, 2020

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023

使用深度卷积神经网络和数据增强进行声学事件检测

本研究提出了一种新的声音事件检测方法，使用卷积神经网络结合大的输入层来提取长时频结构特征，同时采用数据增强方法防止过拟合，实验表明该方法在声音事件检测上表现优异，超过了现有方法，取得了 16% 的绝对提升。

Apr, 2016

EDAC：高效部署用于 COVID-19 检测的音频分类模型

通过网络修剪和量化的方法，我们成功地压缩了两个用于检测 COVID-19 的模型，同时不降低模型的预测性能，并实现了模型文件大小的大幅减小以及相应推理时间的缩短。

Sep, 2023