深度音频先验
通过将生成先验训练于各个单独的源上,利用梯度下降优化方法同时在这些源特定的潜在空间中搜索,以有效地恢复各个成分来源,并且通过在飞行中优化使用频谱失真函数而非直接定义波形 GAN 生成先验可以获得良好质量的源估计,我们针对语音数字和乐器数据集的实证研究表明,与传统的与最先进的无监督基线相比,我们的方法的有效性。
May, 2020
本文提出了深度权重先验(DWP)作为深度卷积神经网络的新型先验分布。DWP 利用生成模型来鼓励已训练卷积滤波器的特定结构,例如权重之间的空间相关性。作者提出了一种变分推断方法来处理这种隐式先验分布,并通过实验证明,当训练数据有限时,使用 DWP 可以改进贝叶斯神经网络的性能,使用 DWP 样本初始化权重也可以加速传统卷积神经网络的训练。
Oct, 2018
采用 DenseNet 架构的音频源分离方法在 SiSEC 2016 竞赛中表现优异,具有更好的信号失真比和更少的参数、更短的训练时间。
Jun, 2017
本文提出使用神经架构搜索算法来寻找升级版的卷积神经网络,以用作结构化图像先验,从而进行各种反向图像恢复任务,通过大量实验结果验证了此方法的有效性。
Aug, 2020
本文研究了深度卷积神经网络用于图像生成和修复的方法,以及使用神经网络作为手工先验的能力,展示了这种方法在标准的逆问题中的卓越效果以及在检测深度神经网络表示和基于闪光和非闪光输入对图像进行修复方面的同等效果。
Nov, 2017
该研究对未经训练的神经网络在磁共振成像(MRI)重建领域的应用进行了讨论,通过理解网络架构的频率特征,提出了两种与架构无关的改进方法,从而使得不合理设计的模型在性能上能够接近高性能模型。
Dec, 2023
利用小波包和短時傅里叶變換等技術,用于波形数据处理,實現了更輕量級的檢測器,用于對抗利用生成式神經網絡制造的合成語音的詐騙行為,對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。
May, 2023
本文提出了一种基于距离感知的先验分布校准方法 (DAP),可用于纠正贝叶斯深度学习模型在域外过于自信的问题,该方法可以作为后处理步骤执行,并能够有效地用于多种分类和回归问题。
Jul, 2022
通过深度学习模型在临床环境中评估音频分类,针对反映真实世界前瞻性数据收集的小数据集,我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型,以及像 ViT、SWIN 和 AST 这样的 Transformer 模型,并将它们与预训练的音频模型(如 YAMNet 和 VGGish)进行比较。我们的方法强调了在特定临床数据上微调之前,在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术,发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明,在小数据集背景下,CNN 模型可以达到或超过 Transformer 模型的性能,其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性,为依赖音频分类的临床诊断提供了有价值的见解。
Feb, 2024