使用 CNN 的声景分类方法比较研究

Apr, 2022

使用 CNN 的声景分类方法比较研究

A Comparative Study on Approaches to Acoustic Scene Classification using CNNs

Ishrat Jahan Ananya, Sarah Suad, Shadab Hafiz Choudhury, Mohammad Ashrafuzzaman Khan

TL;DR本文研究了使用神经网络进行环境声音分类的三种不同类型的表示：谱图、MFCC 和嵌入式表示，并使用不同的 CNN 网络和自编码器来评估它们在分类准确度上的效果。我们发现使用谱图的分类准确度最高，而使用 MFCC 的准确度最低，同时提出了一些指导性的结论和方法来提高声音环境分类的准确度。

Abstract

acoustic scene classification is a process of characterizing and classifying the environments from sound recordings. The first step is to generate features (representations) from the recorded sound and then classify the background environments. However, different kinds of representatio

acoustic scene classification spectrograms mfccs embeddings neural networks

发现论文，激发创造

声学场景分类

介绍声音场景分类中的一些当前前沿、定义一个标准框架，并提供各种不同算法、提交给数据挑战以及评估人类分类准确性的表现，最终得出三种算法显著优于基准方法，但在某些场景下算法和人类都会出现误差。

Nov, 2014

对比环境声音表示学习

利用自监督对比技术和浅层 1D CNN 提取环境音频的显著特征，进一步使用规范相关分析（CCA）来融合来自给定音频的两种输入类型的表示，并证明融合的全局特征相对于单独的表示具有更强的鲁棒性。在 ESC-50 和 UrbanSound8K 上的评估表明，该技术能够提取环境声音的大部分特征，并分别在 ESC-50 和 UrbanSound8K 数据集上获得了 12.8％和 0.9％的改进。

Jul, 2022

设备鲁棒声场分类的两阶段方法

本文提出了一种基于卷积神经网络的双阶段系统来改善数据驱动声景分类的鲁棒性，通过探究不同的神经网络架构和数据扩充方案以及利用 class activation mapping 进行神经元显著性分析，该系统在 DCASE 2020 Task 1a 上达到了目前最高的准确率 81.9%。

Nov, 2020

使用卷积神经网络比较环境声音分类的时频表示

本研究比较了不同信号处理方法在卷积神经网络进行音频分类任务时所得到的频谱图表示，发现 Mel-scaled STFT 方法表现最佳。同时还发现，信号的特点以及转化窗口的大小都对分类结果有影响，2D 卷积神经网络在大多数情况下都比 1D 效果更好。

Jun, 2017

低复杂度 CNN 音场分类

本文提出了一种低复杂度卷积神经网络框架及相应模型压缩技术和结合多低复杂度卷积神经网络的集成框架，实验表明该框架在声场分类任务上能够获得较好的性能提升。

Jul, 2022

基于 1-D CNN 的声景分类通过逐层降低维度

本文提出了一种基于卷积神经网络的替代时间 - 频率表示的声场分类框架，使用自动字典学习框架从中提取了低维嵌入，并通过 late-fusion 的方式聚合不同中间层的分层信息，取得了优于传统时间 - 频率表示方法的实验效果。

Mar, 2022

大规模音频分类的 CNN 结构

本文介绍了使用几种不同的卷积神经网络对音频进行分类，发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效，使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。

Sep, 2016

基于样本级 CNN 结构的原始波形音频分类

本文研究了音频领域中可扩展的分类模型，并使用两种不同的基于样本级的深度卷积神经网络模型实现。通过对各种声音类别的测试表明，这些模型达到了最先进的性能水平，并可视化了滤波器在网络中的变化。

Dec, 2017

基于多通道 I-Vectors 和卷积神经网络的混合方法用于声学场景分类

本文提出了一种改进基于 i-vectors 的音场识别方法和 CNN 模型，通过多通道 i-vector 提取和 CNN 模型结合的得分融合技术，取得了 DCASE-2016 挑战中音场识别任务的第一名，并展示了 i-vectors 和 CNN 模型各自在捕捉感知场景信息方面的优势以及它们所抓取的信息相互补充。

Jun, 2017

深度卷积神经网络与数据增强在环境音分类中的应用

本文提出了一种使用深度卷积神经网络和音频数据增强相结合的方法来进行环境声音分类，通过对增强技术的探索发现在不同类别下所使用的增强技术会对分类准确率产生影响。实验结果表明，该方法在环境声音分类上表现出了最先进的效果。

Aug, 2016