基于 Mixup 的多通道卷积神经网络音频场景分类
本文提出了一种改进基于 i-vectors 的音场识别方法和 CNN 模型,通过多通道 i-vector 提取和 CNN 模型结合的得分融合技术,取得了 DCASE-2016 挑战中音场识别任务的第一名,并展示了 i-vectors 和 CNN 模型各自在捕捉感知场景信息方面的优势以及它们所抓取的信息相互补充。
Jun, 2017
本研究提出了一种基于卷积神经网络的弱标记音频数据分类框架,可用于转移学习,并证明了该方法对于领域和任务适应都具有有效性,此外还展示了该方法有助于捕捉语义含义和关系。
Nov, 2017
本文提出了一种基于 MLP-Mixer 的多视图多标签神经网络用于网络流量分类,将报文分为报文头和报文体,并从不同的视图输入报文的流特征,通过利用不同场景之间的相关性来改善分类性能,在三个公共数据集上进行了实验,结果表明我们的方法可以取得更好的性能。
Oct, 2022
本文研究了使用神经网络进行环境声音分类的三种不同类型的表示:谱图、MFCC 和嵌入式表示,并使用不同的 CNN 网络和自编码器来评估它们在分类准确度上的效果。我们发现使用谱图的分类准确度最高,而使用 MFCC 的准确度最低,同时提出了一些指导性的结论和方法来提高声音环境分类的准确度。
Apr, 2022
本文提出了一种基于卷积神经网络的双阶段系统来改善数据驱动声景分类的鲁棒性,通过探究不同的神经网络架构和数据扩充方案以及利用 class activation mapping 进行神经元显著性分析,该系统在 DCASE 2020 Task 1a 上达到了目前最高的准确率 81.9%。
Nov, 2020
本文描述了布尔诺科技大学参加 DCASE-2018 挑战的任务 1(声景分类,ASC)提交作品。采用了两种不同的卷积神经网络拓扑结构,结合了 log mel-spectrogram 和 CQT 特征提取声音,以及一维 CNN 提取固定长度的 x 向量。多种系统输出采用简单的输出平均法,最优表现中我们的提交获得了 ASC 子任务 A(task1a)24 个团队中的第三名。
Oct, 2018
本文介绍了使用几种不同的卷积神经网络对音频进行分类,发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效,使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。
Sep, 2016
本文提出了一种基于卷积神经网络(CNN)架构的音乐自动标记技术,该技术融合了多层级和多尺度特征,通过三个步骤的训练方式在音乐自动标记中表现出高效性并在 MagnaTagATune 数据集和 Million Song 数据集上超越了之前的 state-of-the-arts。实验证明该架构同样适用于迁移学习。
Mar, 2017
本文提出了一种基于卷积递归神经网络的时空关注池化层,用于学习判别性模式并抑制与声学场景分类无关的模式。实验证明该方法不仅优于强卷积神经网络基线,还在 LITIS Rouen 数据库上取得了新的最优性能。
Apr, 2019