HarmoF0：基于对数尺度膨胀卷积的音高估计

May, 2022

HarmoF0：基于对数尺度膨胀卷积的音高估计

HarmoF0: Logarithmic Scale Dilated Convolution For Pitch Estimation

Weixing Wei, Peilin Li, Yi Yu, Wei Li

TL;DR该研究提出了一种多速率膨胀因果卷积（MRDC-Conv）方法，通过对数尺度频谱图高效捕捉谐波结构，从而帮助提升音高估计的性能和准确度，并与其他膨胀卷积方法进行了比较，结果表明该模型在三个数据集中表现出色，能够有效降低大约 90% 的参数，同时具有强大的抗噪能力和更少的八度错误。

Abstract

Sounds, especially music, contain various harmonic components scattered in the frequency dimension. It is difficult for normal convolutional neural networks to observe these overtones. This paper introduces a multiple rates dilated causal convolution (MRDC-Conv) method to capture the harmonic structure in logarithmic scale →

pitch estimation spectrograms harmonics convolutional neural networks sound processing

发现论文，激发创造

谐波网络：将频谱信息整合到 CNN 中

本文提出谐波块代替传统的卷积层，通过学习离散余弦变换定义的谱滤波器的最优组合来产生特征，将谐波块引入现有卷积神经网络基线模型，可以在小的 NORB，CIFAR10 和 CIFAR100 数据集的分类任务中取得与或更好的性能。

Dec, 2018

频率自适应扩张卷积用于语义分割

提出了三种策略来改进分析视角下的空间频率分布，通过频率自适应扩张卷积、自适应核函数和频率选择模块，提高了有效带宽和感知范围，从而有效改善分割和目标检测性能。

Mar, 2024

提高歌声旋律提取的谐波敏感性和预测稳定性

本论文通过在输入特征上的修改和训练目标上的修改提出了一种改善性能的旋律提取模型，实验证明该方法对于歌唱旋律提取是有效的。

Aug, 2023

有限训练样本下的谐波网络

本研究表明，使用离散余弦变换（DCT）滤波器的谐波块，可在有限的训练数据情况下与使用小波作为预设滤波器的散射网络相比，有效降低训练参数数量和过度拟合，从而提高卷积神经网络（CNN）的性能。

Apr, 2019

D3Net：密集连接的多扩张 DenseNet 音乐源分离

本文提出了一种新的 CNN 结构称为密集连接扩张 DenseNet（D3Net），用于模拟同时具有多分辨率数据的音频信号，该结构避免了在 DenseNet 中纳入扩张卷积时存在的混叠问题。通过对 MUSDB18 数据集的实验结果表明，D3Net 具有最先进的性能，平均信号失真比为 6.01 分贝。

Oct, 2020

一种基于递归融合扩张卷积和信道注意力的高效语音分离网络

本文介绍了一种高效的语音分离神经网络，采用了扩张卷积、多尺度融合和通道注意力等多种方法，可以克服卷积网络的有限感受野和变换器网络的高计算成本问题，实现局部和全局特征的学习，并通过通道的注意力权重学习关键的特征来提高网络的表达能力和鲁棒性，实验结果表明，该模型在性能和计算效率之间取得了不错的平衡，是目前实际应用的有希望的选择。

Jun, 2023

特征映射协调：增强对抗鲁棒性的图卷积方法

深度神经网络对对抗性扰动的脆弱性引起了重大的安全关切，本研究提出了一种创新的插拔模块称为基于特征图的重构图卷积（FMR-GC），通过在通道维度上谐调特征图以重构图，并采用图卷积捕获邻域信息，有效校准污染特征，与先进的对抗训练方法相结合，显著提高鲁棒性而不影响模型的准确性。

Jun, 2024

基于可变形时间卷积神经网络的单声道嘈杂混响语音分离

本研究提出了一种新的方法，使用可变形卷积解决了语音分离领域中存在固定跨度的问题，通过应用此方法，研究人员获得了优秀的性能。

Oct, 2022

用于学习多频图像压缩的广义定标卷积

本文提出了基于 Octave 卷积的学习多频图像压缩和熵编码方法，将潜变量分解成高低分辨率分量，并通过新颖的广义 Octave 卷积结构减少了空间冗余，取得了超越标准编解码器与其他学习方法的压缩性能。此外，还演示了广义 Octave 卷积对于计算机视觉任务的性能提升效果。

Feb, 2020

用多分辨率神经网络拟合听觉滤波器组

通过引入名为 MuReNN 的神经音频模型，我们旨在解决深度学习在波形处理中的非参数和参数方法之间的矛盾，MuReNN 通过训练离散小波变换 (DWT) 的八度子带上的独立卷积运算器来拓宽其感受野，将声音数据集的幅度响应与 Gammatone、CQT 和三分之一八度声音滤波器进行知识蒸馏，并在保留集上与现有的方法进行对比，结果表明 MuReNN 在所有三个优化问题上达到了最先进的性能。

Jul, 2023