基于深度学习的音频事件识别中时间域和频率域的对比

Mar, 2016

基于深度学习的音频事件识别中时间域和频率域的对比

Comparing Time and Frequency Domain for Audio Event Recognition Using Deep Learning

Lars Hertel, Huy Phan, Alfred Mertins

TL;DR本文研究了深度神经网络对频域和时域音频信号进行特征学习的效果，并利用卷积和池化进一步提高了音频事件识别的性能，实现了最先进的结果。

Abstract

Recognizing acoustic events is an intricate problem for a machine and an emerging field of research. deep neural networks achieve convincing results and are currently the state-of-the-art approach for many tasks.

acoustic events deep neural networks frequency domain convolution pooling

发现论文，激发创造

AENet: 学习视频分析的深度音频特征

提出了一种新的深度网络用于音频事件识别，名为 AENet，该网络采用卷积神经网络以在时间维度上对音频事件进行长时间频率结构的建模来训练端到端的音频事件检测系统，在事件识别、动作识别和视频亮点检测等视听任务中，结合 AENet 特征和视觉特征效果显著。

Jan, 2017

基于 XAI 的音频事件分类输入表示比较

本文研究音频事件分类中的不同输入表示所采用的相关特征。作者使用 eXplainable AI （XAI）来比较两种模型体系结构的分类策略，并通过 Siren 的层级相关传播来获取相关热图，以揭示不同表示依赖的决策策略，从而为选择最佳的输入表示提供决策支持，并确认模型的分类策略与人的要求相符。

Apr, 2023

频域学习

通过在频域进行学习和频道选择，我们提出了减少冗余和显著信息以提高图像分类精度的学习方法，得出使用该方法的 ResNet-50、MobileNetV2 和 Mask R-CNN 在图像分类和实例分割上表现更好的结论。

Feb, 2020

音频信号处理的深度学习

该研究文章综述了当前音频信号处理领域中基于深度学习的技术，着重介绍了其在语音、音乐、环境声音处理中的相同点和差异，强调了其潜在的交叉互补性。文章介绍了主要的特征表示和深度学习模型，以及其在音频识别和合成分离领域的应用，并最终确定了深度学习在音频信号处理中的关键问题和未来研究方向。

Apr, 2019

直接从波形中学习多尺度特征

本文详细介绍了一种使用卷积滤波器的方法，可以通过减少步幅增加时间分辨率，通过增加滤波器增加频率分辨率以提高语音识别精度。我们同时在多个尺度上学习，从而发现更高效的表示方法，并且相对于基于光谱图的同样参数网络训练，内部语音测试集上的词语错误率下降了 20.7％。

Mar, 2016

通过融合时频和空间表示改善基于 EEG 的情感识别

该研究结合多个表示，使用多领域关注机制和跨领域特征融合方法构建了脑电情感识别网络，实验证明该网络优于其他现有方法，并实现了最新技术水平。

Mar, 2023

无监督的音频特征学习分析

本文提出一种基于卷积 LSTM 自编码器的音频预测器用于无监督特征提取，并给出了一种自编码器的训练方法，通过放大事件相似性得到独特的特征。与标准方法相比，使用此方法训练的音频预测器提取的特征在分类器或聚类方面显示出 13％或 36％的改进结果。

Dec, 2017

使用卷积神经网络比较环境声音分类的时频表示

本研究比较了不同信号处理方法在卷积神经网络进行音频分类任务时所得到的频谱图表示，发现 Mel-scaled STFT 方法表现最佳。同时还发现，信号的特点以及转化窗口的大小都对分类结果有影响，2D 卷积神经网络在大多数情况下都比 1D 效果更好。

Jun, 2017

基于样本级 CNN 结构的原始波形音频分类

本文研究了音频领域中可扩展的分类模型，并使用两种不同的基于样本级的深度卷积神经网络模型实现。通过对各种声音类别的测试表明，这些模型达到了最先进的性能水平，并可视化了滤波器在网络中的变化。

Dec, 2017

深度神经网络中的特征学习 —— 基于语音识别任务的研究

本文研究表明，深度神经网络在语音识别任务中比浅层网络和高斯混合模型表现得更好，这是因为它们具有提取具有鲁棒性的区分性内部表示的能力。此外，我们表明 DNN 不能推广到与训练样本差异显著的测试样本，但是，如果训练数据足够代表性，DNN 的内部特征相对于说话人差异、带宽差异和环境失真是相对稳定的。这种稳定性使得基于 DNN 的识别器在不需要显式模型适应或特征归一化的情况下表现得和基于 GMMs 或浅层网络的现有系统一样好甚至更好。

Jan, 2013