HarmoF0:基于对数尺度膨胀卷积的音高估计
本文提出谐波块代替传统的卷积层,通过学习离散余弦变换定义的谱滤波器的最优组合来产生特征,将谐波块引入现有卷积神经网络基线模型,可以在小的 NORB,CIFAR10 和 CIFAR100 数据集的分类任务中取得与或更好的性能。
Dec, 2018
提出了三种策略来改进分析视角下的空间频率分布,通过频率自适应扩张卷积、自适应核函数和频率选择模块,提高了有效带宽和感知范围,从而有效改善分割和目标检测性能。
Mar, 2024
本研究表明,使用离散余弦变换(DCT)滤波器的谐波块,可在有限的训练数据情况下与使用小波作为预设滤波器的散射网络相比,有效降低训练参数数量和过度拟合,从而提高卷积神经网络(CNN)的性能。
Apr, 2019
本文提出了一种新的 CNN 结构称为密集连接扩张 DenseNet(D3Net),用于模拟同时具有多分辨率数据的音频信号,该结构避免了在 DenseNet 中纳入扩张卷积时存在的混叠问题。通过对 MUSDB18 数据集的实验结果表明,D3Net 具有最先进的性能,平均信号失真比为 6.01 分贝。
Oct, 2020
本文介绍了一种高效的语音分离神经网络,采用了扩张卷积、多尺度融合和通道注意力等多种方法,可以克服卷积网络的有限感受野和变换器网络的高计算成本问题,实现局部和全局特征的学习,并通过通道的注意力权重学习关键的特征来提高网络的表达能力和鲁棒性,实验结果表明,该模型在性能和计算效率之间取得了不错的平衡,是目前实际应用的有希望的选择。
Jun, 2023
深度神经网络对对抗性扰动的脆弱性引起了重大的安全关切,本研究提出了一种创新的插拔模块称为基于特征图的重构图卷积(FMR-GC),通过在通道维度上谐调特征图以重构图,并采用图卷积捕获邻域信息,有效校准污染特征,与先进的对抗训练方法相结合,显著提高鲁棒性而不影响模型的准确性。
Jun, 2024
本文提出了基于 Octave 卷积的学习多频图像压缩和熵编码方法,将潜变量分解成高低分辨率分量,并通过新颖的广义 Octave 卷积结构减少了空间冗余,取得了超越标准编解码器与其他学习方法的压缩性能。此外,还演示了广义 Octave 卷积对于计算机视觉任务的性能提升效果。
Feb, 2020
通过引入名为 MuReNN 的神经音频模型,我们旨在解决深度学习在波形处理中的非参数和参数方法之间的矛盾,MuReNN 通过训练离散小波变换 (DWT) 的八度子带上的独立卷积运算器来拓宽其感受野,将声音数据集的幅度响应与 Gammatone、CQT 和三分之一八度声音滤波器进行知识蒸馏,并在保留集上与现有的方法进行对比,结果表明 MuReNN 在所有三个优化问题上达到了最先进的性能。
Jul, 2023