Jul, 2016
CNN-LTE:一类基于标签树嵌入的 1-X 池化卷积神经网络,用于音频场景识别
CNN-LTE: a Class of 1-X Pooling Convolutional Neural Networks on Label Tree Embeddings for Audio Scene Recognition
Huy Phan, Lars Hertel, Marco Maass, Philipp Koch, Alfred Mertins
TL;DR该论文报道了我们在 DCASE 2016 挑战赛中提交的音频场景识别系统,使用自动构建的标签树进行特征提取,并在其基础上利用卷积神经网络对场景进行识别,取得了相对于基线系统的绝对提升,其开发数据和测试数据的综合识别准确率分别为 81.2% 和 83.3%。