IEEE ICME 2024 大挑战赛:领域偏移下的半监督声学场景分类
介绍声音场景分类中的一些当前前沿、定义一个标准框架,并提供各种不同算法、提交给数据挑战以及评估人类分类准确性的表现,最终得出三种算法显著优于基准方法,但在某些场景下算法和人类都会出现误差。
Nov, 2014
本文提出了一种基于残差 - 插入结构网络的深度神经网络模型,实现了场景噪音的准确识别,并进行了模型细节及误差分析,提高了模型效果和性能,同时提出了一种可视化方法以全面展示场景上下文。
Oct, 2022
实现了一个使用 CNN、数据增强、量化和模型融合的音频场景分类系统,可以将多个设备录制的音频信号精细分类为 10 个细粒度类别和 3 个高层级类别,并在不增加复杂度的情况下获得高准确率
Jul, 2020
本文提出了一种低复杂度深度学习系统,通过两个阶段的教师 - 学生网络训练,从而实现声场分类问题的高精度解决,精度达到了 57.4% 并且比常规的 DCASE 基线提升了 14.5%。
May, 2023
通过设计自适应语义一致性机制,提出了一种适应性的源领域知识转移框架(ASC),通过在源领域预训练中重用源图像并设计自适应的权重分配策略,实现了源领域知识向目标领域的显式转移,有效地减轻了跨领域 few-shot 分类中过拟合的问题。
Aug, 2023
本文提出了一种基于卷积神经网络的双阶段系统来改善数据驱动声景分类的鲁棒性,通过探究不同的神经网络架构和数据扩充方案以及利用 class activation mapping 进行神经元显著性分析,该系统在 DCASE 2020 Task 1a 上达到了目前最高的准确率 81.9%。
Nov, 2020
本文介绍了 DCASE 2020 挑战赛的任务 1:声学场景分类的详细信息,该任务包含两个子任务:使用多个设备的数据进行分类,需要良好的泛化性能,并且使用低复杂度解决方案进行分类。在这里,我们描述了数据集和基线系统。在挑战提交截止日期之后,将添加挑战结果和提交的分析。
May, 2020
为了解决当前深度学习方法在声场分类中计算复杂度高、性能不理想的问题,我们提出了一种深度可分离蒸馏网络。该网络在对 log-mel 频谱图进行高低频分解的同时显著降低了计算复杂度,并特别设计了三种轻量级算子,包括可分离卷积、正交可分离卷积和可分离部分卷积,这些算子在声场分类任务中具有高效的特征提取能力。实验结果表明,与当前流行的深度学习方法相比,该方法在性能上提高了 9.8%,同时参数数量和计算复杂度更小。
May, 2024
2024 年 DCASE 挑战任务 2 的任务描述:机器条件监控中首次无监督异常声音检测(ASD),以领域泛化为特点的一次性问题,旨在实现对新型机器的快速部署,无需机器特定的超参数调整。
Jun, 2024