提出了一种新的深度网络用于音频事件识别,名为 AENet,该网络采用卷积神经网络以在时间维度上对音频事件进行长时间频率结构的建模来训练端到端的音频事件检测系统,在事件识别、动作识别和视频亮点检测等视听任务中,结合 AENet 特征和视觉特征效果显著。
Jan, 2017
本文研究音频事件分类中的不同输入表示所采用的相关特征。 作者使用 eXplainable AI (XAI)来比较两种模型体系结构的分类策略,并通过 Siren 的层级相关传播来获取相关热图,以揭示不同表示依赖的决策策略,从而为选择最佳的输入表示提供决策支持,并确认模型的分类策略与人的要求相符。
Apr, 2023
通过在频域进行学习和频道选择,我们提出了减少冗余和显著信息以提高图像分类精度的学习方法,得出使用该方法的 ResNet-50、MobileNetV2 和 Mask R-CNN 在图像分类和实例分割上表现更好的结论。
Feb, 2020
该研究文章综述了当前音频信号处理领域中基于深度学习的技术,着重介绍了其在语音、音乐、环境声音处理中的相同点和差异,强调了其潜在的交叉互补性。文章介绍了主要的特征表示和深度学习模型,以及其在音频识别和合成分离领域的应用,并最终确定了深度学习在音频信号处理中的关键问题和未来研究方向。
Apr, 2019
本文详细介绍了一种使用卷积滤波器的方法,可以通过减少步幅增加时间分辨率,通过增加滤波器增加频率分辨率以提高语音识别精度。我们同时在多个尺度上学习,从而发现更高效的表示方法,并且相对于基于光谱图的同样参数网络训练,内部语音测试集上的词语错误率下降了 20.7%。
Mar, 2016
该研究结合多个表示,使用多领域关注机制和跨领域特征融合方法构建了脑电情感识别网络,实验证明该网络优于其他现有方法,并实现了最新技术水平。
Mar, 2023
本文提出一种基于卷积 LSTM 自编码器的音频预测器用于无监督特征提取,并给出了一种自编码器的训练方法,通过放大事件相似性得到独特的特征。与标准方法相比,使用此方法训练的音频预测器提取的特征在分类器或聚类方面显示出 13%或 36%的改进结果。
Dec, 2017
本研究比较了不同信号处理方法在卷积神经网络进行音频分类任务时所得到的频谱图表示,发现 Mel-scaled STFT 方法表现最佳。同时还发现,信号的特点以及转化窗口的大小都对分类结果有影响,2D 卷积神经网络在大多数情况下都比 1D 效果更好。
Jun, 2017
本文研究了音频领域中可扩展的分类模型,并使用两种不同的基于样本级的深度卷积神经网络模型实现。通过对各种声音类别的测试表明,这些模型达到了最先进的性能水平,并可视化了滤波器在网络中的变化。
本文研究表明,深度神经网络在语音识别任务中比浅层网络和高斯混合模型表现得更好,这是因为它们具有提取具有鲁棒性的区分性内部表示的能力。此外,我们表明 DNN 不能推广到与训练样本差异显著的测试样本,但是,如果训练数据足够代表性,DNN 的内部特征相对于说话人差异、带宽差异和环境失真是相对稳定的。这种稳定性使得基于 DNN 的识别器在不需要显式模型适应或特征归一化的情况下表现得和基于 GMMs 或浅层网络的现有系统一样好甚至更好。
Jan, 2013