使用卷积神经网络进行处理的音频光谱图表示
本研究比较了不同信号处理方法在卷积神经网络进行音频分类任务时所得到的频谱图表示,发现 Mel-scaled STFT 方法表现最佳。同时还发现,信号的特点以及转化窗口的大小都对分类结果有影响,2D 卷积神经网络在大多数情况下都比 1D 效果更好。
Jun, 2017
本研究旨在通过应用离散傅立叶变换和频谱表示提供有效的计算卷积方法,并且展示频谱域应用于卷积神经网络设计的创新,如频谱池化、随机修改分辨率的新形式随机正则化、卷积过滤器的复系数频谱参数化等。在不使用任何 dropout 或 max-pooling 的情况下,这些方法在分类和逼近任务中取得了有竞争力的结果,并且观察到这些方法可以显著加快训练的收敛速度。
Jun, 2015
本文研究了使用神经网络进行环境声音分类的三种不同类型的表示:谱图、MFCC 和嵌入式表示,并使用不同的 CNN 网络和自编码器来评估它们在分类准确度上的效果。我们发现使用谱图的分类准确度最高,而使用 MFCC 的准确度最低,同时提出了一些指导性的结论和方法来提高声音环境分类的准确度。
Apr, 2022
探究如何利用卷积神经网络 (CNNs) 从对数 - 梅尔幅度谱图中有效地学习音色表示,提出了一种设计策略,旨在捕捉用于学习音质的相关时频上下文,并且设计了多个基于该策略的 CNN 体系结构。这些体系结构成功地应用于与音色相关的不同研究任务。
Mar, 2017
该研究文章综述了当前音频信号处理领域中基于深度学习的技术,着重介绍了其在语音、音乐、环境声音处理中的相同点和差异,强调了其潜在的交叉互补性。文章介绍了主要的特征表示和深度学习模型,以及其在音频识别和合成分离领域的应用,并最终确定了深度学习在音频信号处理中的关键问题和未来研究方向。
Apr, 2019
本文提出了可学习的自适应内容前端用于音频信号处理,通过卷积神经网络学习基础函数和权重优化特定任务,同时提出了一种计算内容自适应可学习时频表示的方法,实现了学习有限冲激响应滤波器组,并根据输入信号的内容通过最优滤波器组传递输出信号。
Mar, 2023
用卷积神经网络构建高效且可解释的端到端音频深度学习模型,通过在三个标准语音情感识别数据集上的实验验证,我们的框架在效率和可解释性方面表现优越,对抗 Mel 频谱特征有高达 7% 的改进;还揭示了前端层在处理复杂的长波形模式方面的高效性和可解释性,通过 PhysioNet 心音数据库的实例进行了论证,为处理原始波形数据构建了可移植的有效模型解决方案。
May, 2024
本文研究了音频领域中可扩展的分类模型,并使用两种不同的基于样本级的深度卷积神经网络模型实现。通过对各种声音类别的测试表明,这些模型达到了最先进的性能水平,并可视化了滤波器在网络中的变化。
Dec, 2017
本文提出了一种基于样本级别深度卷积神经网络的方法,用于从音乐信号中学习表示,并取得了与先前最先进性能可比的结果,而可视化学到的滤波器说明它们对倍频谱很敏感。
Mar, 2017
本文通过研究 ConvNets 在 EEG 信号解码中的表现,发现其通过一系列层次逐渐学会了如何识别 EEG 信号的不同特征,其中后期的卷积层可以识别 EEG 信号的复杂特征,这为理解 EEG 时间序列的组合结构提供了洞见。
Nov, 2017