低复杂度 CNN 音场分类
本文提出了一种基于卷积神经网络的双阶段系统来改善数据驱动声景分类的鲁棒性,通过探究不同的神经网络架构和数据扩充方案以及利用 class activation mapping 进行神经元显著性分析,该系统在 DCASE 2020 Task 1a 上达到了目前最高的准确率 81.9%。
Nov, 2020
本文提出了一种基于残差 - 插入结构网络的深度神经网络模型,实现了场景噪音的准确识别,并进行了模型细节及误差分析,提高了模型效果和性能,同时提出了一种可视化方法以全面展示场景上下文。
Oct, 2022
本文提出了一种基于卷积神经网络的替代时间 - 频率表示的声场分类框架,使用自动字典学习框架从中提取了低维嵌入,并通过 late-fusion 的方式聚合不同中间层的分层信息,取得了优于传统时间 - 频率表示方法的实验效果。
Mar, 2022
本文介绍了一种开发用于声音场景分类的低复杂度卷积神经网络的方法,其中通过余弦距离算法和 Fine-tuning 过程,将 CNNs 的卷积滤波器数量减少来缩小网络规模,从而提高运行效率并保持高准确性。
Mar, 2022
本文提出了一种低复杂度深度学习系统,通过两个阶段的教师 - 学生网络训练,从而实现声场分类问题的高精度解决,精度达到了 57.4% 并且比常规的 DCASE 基线提升了 14.5%。
May, 2023
实现了一个使用 CNN、数据增强、量化和模型融合的音频场景分类系统,可以将多个设备录制的音频信号精细分类为 10 个细粒度类别和 3 个高层级类别,并在不增加复杂度的情况下获得高准确率
Jul, 2020
本文描述了布尔诺科技大学参加 DCASE-2018 挑战的任务 1(声景分类,ASC)提交作品。采用了两种不同的卷积神经网络拓扑结构,结合了 log mel-spectrogram 和 CQT 特征提取声音,以及一维 CNN 提取固定长度的 x 向量。多种系统输出采用简单的输出平均法,最优表现中我们的提交获得了 ASC 子任务 A(task1a)24 个团队中的第三名。
Oct, 2018
本文提出了一种改进基于 i-vectors 的音场识别方法和 CNN 模型,通过多通道 i-vector 提取和 CNN 模型结合的得分融合技术,取得了 DCASE-2016 挑战中音场识别任务的第一名,并展示了 i-vectors 和 CNN 模型各自在捕捉感知场景信息方面的优势以及它们所抓取的信息相互补充。
Jun, 2017
本文研究了使用神经网络进行环境声音分类的三种不同类型的表示:谱图、MFCC 和嵌入式表示,并使用不同的 CNN 网络和自编码器来评估它们在分类准确度上的效果。我们发现使用谱图的分类准确度最高,而使用 MFCC 的准确度最低,同时提出了一些指导性的结论和方法来提高声音环境分类的准确度。
Apr, 2022
为了解决当前深度学习方法在声场分类中计算复杂度高、性能不理想的问题,我们提出了一种深度可分离蒸馏网络。该网络在对 log-mel 频谱图进行高低频分解的同时显著降低了计算复杂度,并特别设计了三种轻量级算子,包括可分离卷积、正交可分离卷积和可分离部分卷积,这些算子在声场分类任务中具有高效的特征提取能力。实验结果表明,与当前流行的深度学习方法相比,该方法在性能上提高了 9.8%,同时参数数量和计算复杂度更小。
May, 2024