基于 Mixup 的多通道卷积神经网络音频场景分类

May, 2018

基于 Mixup 的多通道卷积神经网络音频场景分类

Mixup-Based Acoustic Scene Classification Using Multi-Channel Convolutional Neural Network

Kele Xu, Dawei Feng, Haibo Mi, Boqing Zhu, Dezhi Wang...

TL;DR本文研究了利用多通道卷积神经网络进行音频场景分类，通过 mixup 方法进行数据增强，相比传统方法有更高的精度和鲁棒性，并且可以在评估数据上减少泛化误差。

Abstract

audio scene classification, the problem of predicting class labels of audio scenes, has drawn lots of attention during the last several years. However, it remains challenging and falls short of accuracy and efficiency. Recently, →

audio scene classification convolutional neural network multi-channel recordings mixup method data argumentation

发现论文，激发创造

基于多通道 I-Vectors 和卷积神经网络的混合方法用于声学场景分类

本文提出了一种改进基于 i-vectors 的音场识别方法和 CNN 模型，通过多通道 i-vector 提取和 CNN 模型结合的得分融合技术，取得了 DCASE-2016 挑战中音场识别任务的第一名，并展示了 i-vectors 和 CNN 模型各自在捕捉感知场景信息方面的优势以及它们所抓取的信息相互补充。

Jun, 2017

使用卷积神经网络从弱标记音频进行知识转移，用于声音事件和场景

本研究提出了一种基于卷积神经网络的弱标记音频数据分类框架，可用于转移学习，并证明了该方法对于领域和任务适应都具有有效性，此外还展示了该方法有助于捕捉语义含义和关系。

Nov, 2017

基于 MLP-Mixer 神经网络的多视角多标签异常网络流分类

本文提出了一种基于 MLP-Mixer 的多视图多标签神经网络用于网络流量分类，将报文分为报文头和报文体，并从不同的视图输入报文的流特征，通过利用不同场景之间的相关性来改善分类性能，在三个公共数据集上进行了实验，结果表明我们的方法可以取得更好的性能。

Oct, 2022

使用 CNN 的声景分类方法比较研究

本文研究了使用神经网络进行环境声音分类的三种不同类型的表示：谱图、MFCC 和嵌入式表示，并使用不同的 CNN 网络和自编码器来评估它们在分类准确度上的效果。我们发现使用谱图的分类准确度最高，而使用 MFCC 的准确度最低，同时提出了一些指导性的结论和方法来提高声音环境分类的准确度。

Apr, 2022

设备鲁棒声场分类的两阶段方法

本文提出了一种基于卷积神经网络的双阶段系统来改善数据驱动声景分类的鲁棒性，通过探究不同的神经网络架构和数据扩充方案以及利用 class activation mapping 进行神经元显著性分析，该系统在 DCASE 2020 Task 1a 上达到了目前最高的准确率 81.9%。

Nov, 2020

音频分类中的过度参数化和泛化

本研究旨在探讨声场分类模型过度参数化与其泛化能力之间的关系。研究结果表明，增加卷积神经网络的宽度可以提高其对未知设备的泛化能力，即使参数数量没有增加。

Jul, 2021

用卷积神经网络和 x-vector 嵌入进行 DCASE2018 声学场景分类挑战

本文描述了布尔诺科技大学参加 DCASE-2018 挑战的任务 1（声景分类，ASC）提交作品。采用了两种不同的卷积神经网络拓扑结构，结合了 log mel-spectrogram 和 CQT 特征提取声音，以及一维 CNN 提取固定长度的 x 向量。多种系统输出采用简单的输出平均法，最优表现中我们的提交获得了 ASC 子任务 A（task1a）24 个团队中的第三名。

Oct, 2018

大规模音频分类的 CNN 结构

本文介绍了使用几种不同的卷积神经网络对音频进行分类，发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效，使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。

Sep, 2016

使用预训练卷积神经网络进行多层级和多尺度特征聚合以达到音乐自动标记

本文提出了一种基于卷积神经网络（CNN）架构的音乐自动标记技术，该技术融合了多层级和多尺度特征，通过三个步骤的训练方式在音乐自动标记中表现出高效性并在 MagnaTagATune 数据集和 Million Song 数据集上超越了之前的 state-of-the-arts。实验证明该架构同样适用于迁移学习。

Mar, 2017

音频场景分类的时空注意池化

本文提出了一种基于卷积递归神经网络的时空关注池化层，用于学习判别性模式并抑制与声学场景分类无关的模式。实验证明该方法不仅优于强卷积神经网络基线，还在 LITIS Rouen 数据库上取得了新的最优性能。

Apr, 2019