深度音频先验

Dec, 2019

Deep Audio Prior

Yapeng Tian, Chenliang Xu, Dingzeyu Li

TL;DR本论文提出一种新的深度学习结构 —— 深度音频先验，该方法可在缺乏训练数据的情况下，通过结构和时间信息解决通用盲源分离、交互式音频编辑、音频纹理合成和音频共分离等具有挑战性的音频问题，同时作者通过构建大量数据集且进行严格的实验验证了此方法的有效性。

Abstract

deep convolutional neural networks are known to specialize in distilling compact and robust prior from a large amount of data. We are interested in applying deep networks in the absence of training dataset. In this paper, we introduce →

deep convolutional neural networks deep audio prior universal blind source separation interactive audio editing audio texture synthesis

发现论文，激发创造

深度先验

本研究探讨使用深度学习工具学习神经网络参数先验分布的可能性，结果表明此方法的变分贝叶斯算法具有很好的泛化能力且可以在元数据集上正确推断出周期信号的泛化结果。

Dec, 2017

使用生成先验进行无监督音频源分离

通过将生成先验训练于各个单独的源上，利用梯度下降优化方法同时在这些源特定的潜在空间中搜索，以有效地恢复各个成分来源，并且通过在飞行中优化使用频谱失真函数而非直接定义波形 GAN 生成先验可以获得良好质量的源估计，我们针对语音数字和乐器数据集的实证研究表明，与传统的与最先进的无监督基线相比，我们的方法的有效性。

May, 2020

深度权重先验

本文提出了深度权重先验（DWP）作为深度卷积神经网络的新型先验分布。DWP 利用生成模型来鼓励已训练卷积滤波器的特定结构，例如权重之间的空间相关性。作者提出了一种变分推断方法来处理这种隐式先验分布，并通过实验证明，当训练数据有限时，使用 DWP 可以改进贝叶斯神经网络的性能，使用 DWP 样本初始化权重也可以加速传统卷积神经网络的训练。

Oct, 2018

用于音频源分离的多尺度多频带 DenseNets

采用 DenseNet 架构的音频源分离方法在 SiSEC 2016 竞赛中表现优异，具有更好的信号失真比和更少的参数、更短的训练时间。

Jun, 2017

NAS-DIP: 用神经架构搜索学习深度图像先验

本文提出使用神经架构搜索算法来寻找升级版的卷积神经网络，以用作结构化图像先验，从而进行各种反向图像恢复任务，通过大量实验结果验证了此方法的有效性。

Aug, 2020

深度图像先验

本文研究了深度卷积神经网络用于图像生成和修复的方法，以及使用神经网络作为手工先验的能力，展示了这种方法在标准的逆问题中的卓越效果以及在检测深度神经网络表示和基于闪光和非闪光输入对图像进行修复方面的同等效果。

Nov, 2017

加速 MRI 重建的面向架构无关的未训练网络先验

该研究对未经训练的神经网络在磁共振成像（MRI）重建领域的应用进行了讨论，通过理解网络架构的频率特征，提出了两种与架构无关的改进方法，从而使得不合理设计的模型在性能上能够接近高性能模型。

Dec, 2023

基于深度学习的音频伪造检测网络的泛化

利用小波包和短時傅里叶變換等技術，用于波形数据处理，實現了更輕量級的檢測器，用于對抗利用生成式神經網絡制造的合成語音的詐騙行為，對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。

May, 2023

通过距离感知先验校准贝叶斯神经网络的不确定性

本文提出了一种基于距离感知的先验分布校准方法 (DAP)，可用于纠正贝叶斯深度学习模型在域外过于自信的问题，该方法可以作为后处理步骤执行，并能够有效地用于多种分类和回归问题。

Jul, 2022

调谐：临床环境中有限数据的音频分类器性能分析

通过深度学习模型在临床环境中评估音频分类，针对反映真实世界前瞻性数据收集的小数据集，我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型，以及像 ViT、SWIN 和 AST 这样的 Transformer 模型，并将它们与预训练的音频模型（如 YAMNet 和 VGGish）进行比较。我们的方法强调了在特定临床数据上微调之前，在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术，发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明，在小数据集背景下，CNN 模型可以达到或超过 Transformer 模型的性能，其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性，为依赖音频分类的临床诊断提供了有价值的见解。

Feb, 2024