深度循环神经网络进行音频场景分类

Mar, 2017

深度循环神经网络进行音频场景分类

Audio Scene Classification with Deep Recurrent Neural Networks

Huy Phan, Philipp Koch, Fabrice Katzberg, Marco Maass, Radoslaw Mazur...

TL;DR本文使用深度循环神经网络，将音频场景转换为一系列高级标签树嵌入特征向量序列，将其分割为多个子序列，并对序列进行标签分类，最终获得全局预测标签。在 LITIS Rouen 数据集上，实现了 97.7% 的 F1 分数，与该数据集上最佳结果相比，相对分类错误率减少 35.3%。

Abstract

We introduce in this work an efficient approach for audio scene classification using deep recurrent neural networks. An audio scene is firstly transformed into a sequence of high-level label tree embedding feature vecto

audio scene classification deep recurrent neural networks label tree embedding feature vectors gru-based recurrent neural network f1-score

发现论文，激发创造

CNN-LTE：一类基于标签树嵌入的 1-X 池化卷积神经网络，用于音频场景识别

该论文报道了我们在 DCASE 2016 挑战赛中提交的音频场景识别系统，使用自动构建的标签树进行特征提取，并在其基础上利用卷积神经网络对场景进行识别，取得了相对于基线系统的绝对提升，其开发数据和测试数据的综合识别准确率分别为 81.2% 和 83.3%。

Jul, 2016

大规模音频分类的 CNN 结构

本文介绍了使用几种不同的卷积神经网络对音频进行分类，发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效，使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。

Sep, 2016

深度循环神经网络语音识别

本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络，通过合适的正则化和端到端的训练方法，该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7％。

Mar, 2013

基于门卷积神经网络的大规模弱监督音频分类

本文介绍了一种门控卷积神经网络和一种基于时间注意力的定位方法，用于音频分类，并在 DCASE 2017 挑战赛的大规模弱监督声音事件检测任务中获得了第一名。

Oct, 2017

声学场景分类的标签树嵌入

本文提出了一种利用类别标签结构实现高效声学场景分类的方法，首先通过学习类别标签的聚类来自动构建一个多层结构的元类别分类学，然后将声学场景嵌入到低维度的特征表示中进行分类，该方法在 DCASE 2013 和 LITIS Rouen 数据集上均取得了最先进的结果。

Jun, 2016

基于深度神经决策森林的声场分类

本文提出了一种基于深度神经决策树的声场分类方法（DNDF），它将卷积层与决策森林作为最终分类器的固定数量结合起来，相较于传统的单一分类器，此模型在 DCASE2019 和 ESC-50 数据集上展现出更好的声场分类性能，并且具有竞争性能。

Mar, 2022

深度循环神经网络用于声学建模

本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。

Apr, 2015

DCASE2017 挑战赛任务 4 的 Surrey-cvssp 系统

本文介绍了通过采用基于卷积神经网络和循环神经网络的基本框架以及学习可控门激活函数、基于关注机制的方案和新的批次平衡策略等方法来解决 Acoustic Scenes 和 Weakly-Supervised Learning 问题。在该方法下，我们的音频标记和声音事件检测分别取得了 61% 和 0.73 的 F-Value 和 error rate。

Sep, 2017

应用神经网络的视频场景定位识别

该论文使用人工神经网络研究了通过小型重复拍摄地点（如电视连续剧）的视频序列进行场景识别的可能性，并通过预训练的单图像预处理卷积网络选择每个场景的一组帧，通过神经网络的后续层分类场景位置。研究发现只有部分方法适用于该任务。

Sep, 2023

使用循环神经网络的科学话语中基于从句级别的结构化预测的实验分割

本研究提出了一个基于深度学习的模型，通过序列标注和注意力机制，对科学文献中实验叙述中的结构进行识别，并比较了不同模型的效果和可能的应用。

Feb, 2017