基于多通道 I-Vectors 和卷积神经网络的混合方法用于声学场景分类

Jun, 2017

基于多通道 I-Vectors 和卷积神经网络的混合方法用于声学场景分类

A Hybrid Approach with Multi-channel I-Vectors and Convolutional Neural Networks for Acoustic Scene Classification

Hamid Eghbal-zadeh, Bernhard Lehner, Matthias Dorfer, Gerhard Widmer

TL;DR本文提出了一种改进基于 i-vectors 的音场识别方法和 CNN 模型，通过多通道 i-vector 提取和 CNN 模型结合的得分融合技术，取得了 DCASE-2016 挑战中音场识别任务的第一名，并展示了 i-vectors 和 CNN 模型各自在捕捉感知场景信息方面的优势以及它们所抓取的信息相互补充。

Abstract

In acoustic scene classification (ASC) two major approaches have been followed . While one utilizes engineered features such as mel-frequency-cepstral-coefficients (MFCCs), the other uses learned features that are the outcome of an optimization algorithm. →

acoustic scene classification i-vectors convolutional neural networks multi-channel score fusion

发现论文，激发创造

用卷积神经网络和 x-vector 嵌入进行 DCASE2018 声学场景分类挑战

本文描述了布尔诺科技大学参加 DCASE-2018 挑战的任务 1（声景分类，ASC）提交作品。采用了两种不同的卷积神经网络拓扑结构，结合了 log mel-spectrogram 和 CQT 特征提取声音，以及一维 CNN 提取固定长度的 x 向量。多种系统输出采用简单的输出平均法，最优表现中我们的提交获得了 ASC 子任务 A（task1a）24 个团队中的第三名。

Oct, 2018

设备鲁棒声场分类的两阶段方法

本文提出了一种基于卷积神经网络的双阶段系统来改善数据驱动声景分类的鲁棒性，通过探究不同的神经网络架构和数据扩充方案以及利用 class activation mapping 进行神经元显著性分析，该系统在 DCASE 2020 Task 1a 上达到了目前最高的准确率 81.9%。

Nov, 2020

低复杂度 CNN 音场分类

本文提出了一种低复杂度卷积神经网络框架及相应模型压缩技术和结合多低复杂度卷积神经网络的集成框架，实验表明该框架在声场分类任务上能够获得较好的性能提升。

Jul, 2022

韧性、通用且低复杂度声景分类系统和一个有效的声景上下文呈现可视化工具

本文提出了一种基于残差 - 插入结构网络的深度神经网络模型，实现了场景噪音的准确识别，并进行了模型细节及误差分析，提高了模型效果和性能，同时提出了一种可视化方法以全面展示场景上下文。

Oct, 2022

使用 CNN 的声景分类方法比较研究

本文研究了使用神经网络进行环境声音分类的三种不同类型的表示：谱图、MFCC 和嵌入式表示，并使用不同的 CNN 网络和自编码器来评估它们在分类准确度上的效果。我们发现使用谱图的分类准确度最高，而使用 MFCC 的准确度最低，同时提出了一些指导性的结论和方法来提高声音环境分类的准确度。

Apr, 2022

基于 Mixup 的多通道卷积神经网络音频场景分类

本文研究了利用多通道卷积神经网络进行音频场景分类，通过 mixup 方法进行数据增强，相比传统方法有更高的精度和鲁棒性，并且可以在评估数据上减少泛化误差。

May, 2018

基于 1-D CNN 的声景分类通过逐层降低维度

本文提出了一种基于卷积神经网络的替代时间 - 频率表示的声场分类框架，使用自动字典学习框架从中提取了低维嵌入，并通过 late-fusion 的方式聚合不同中间层的分层信息，取得了优于传统时间 - 频率表示方法的实验效果。

Mar, 2022

声学场景分类

介绍声音场景分类中的一些当前前沿、定义一个标准框架，并提供各种不同算法、提交给数据挑战以及评估人类分类准确性的表现，最终得出三种算法显著优于基准方法，但在某些场景下算法和人类都会出现误差。

Nov, 2014

基于两阶段分类和数据增强的设备鲁棒性声场分类

实现了一个使用 CNN、数据增强、量化和模型融合的音频场景分类系统，可以将多个设备录制的音频信号精细分类为 10 个细粒度类别和 3 个高层级类别，并在不增加复杂度的情况下获得高准确率

Jul, 2020

一种基于被动相似性的卷积神经网络滤波修剪技术，用于高效声学场景分类

本文介绍了一种开发用于声音场景分类的低复杂度卷积神经网络的方法，其中通过余弦距离算法和 Fine-tuning 过程，将 CNNs 的卷积滤波器数量减少来缩小网络规模，从而提高运行效率并保持高准确性。

Mar, 2022