扩散后验采样用于知情单通道去混响
该论文提出了一种基于扩散模型的无监督单声道方法,用于联合盲去混响和房间脉冲响应估计。在各个频率子带上使用带指数衰减的滤波器对混响运算符进行参数化,并沿反向扩散轨迹迭代估计相应的参数。通过测量一致性准则强化生成语音与混响测量的真实性,同时无条件的扩散模型实现了对清晰语音生成的强先验。在没有任何关于房间脉冲响应或混响 - 无混响耦合数据的信息下,我们能够在各种声学场景中成功地进行去混响。我们的方法明显优于先前的盲无监督基准线,并且我们展示了相对于盲监督方法对未见声学条件更具鲁棒性。在线上可获取音频样本和代码。
May, 2024
本文提出一种扩展扩散模型求解广泛的噪声非线性逆问题的方法,该方法利用后验采样实现扩散采样和流形约束梯度融合,并适用于各种噪声统计和非线性问题,代码公开。
Sep, 2022
利用 Gibbs 扩散(GDiff)方法,在参数化高斯噪声的假设下,提出了一种盲去噪的方法,通过一种条件扩散模型和蒙特卡洛采样器交替采样,可以推断出信号和噪声参数。
Feb, 2024
本文介绍一种从混响环境中获取一定数量的训练音频数据,并利用这些数据以及其他可用非混响音频数据来消除混响噪声的方法。利用长时间窗口计算傅里叶变换,将房间产生的卷积转换为频率域的加法,并通过采集混响和干净音频数据的统计信息计算出一种用于规范化音频信号的向量,以解决相同混响条件下的抗混响问题。
Sep, 2022
我们提供了一个用于解决扩散模型的反问题的框架,该框架可以从线性损坏的数据中学习。我们的方法是环境扩散后验采样(A-DPS),利用在一种类型的损坏上进行预训练的生成模型,在来自可能不同的前向过程的测量条件下进行后验采样。我们在标准的自然图像数据集上测试了我们的方法(CelebA、FFHQ 和 AFHQ),并且我们表明 A-DPS 在速度和性能上有时可以超过在干净数据上训练的模型进行几项图像修复任务。我们进一步扩展了环境扩散框架,用访问仅限于傅里叶子采样的多线圈 MRI 测量,加速因子为 2、4、6、8 来训练 MRI 模型。我们再次观察到,在高加速度区间内,与在完全采样数据上训练的模型相比,训练在高度子采样数据上的模型更适用于解决反问题。我们开源了我们的代码和训练的环境扩散 MRI 模型。
Mar, 2024
本文提出了一种基于扩散的概率端到端模型,用于生成原始语音波形,该模型通过自回归的方式顺序生成重叠帧,可以实现无限语音时长的合成,并保持高保真度和时间连贯性,通过直接处理波形具有优势,可以创建局部声学行为,同时该模型是随机的,生成略有差异的波形变体,实验结果表明相较于其他最先进的神经语音生成系统,所提出的模型具有更高的合成质量。
Oct, 2023
通过使用多个数据库来模拟不匹配的声学条件,我们系统评估了基于扩散模型的语音增强模型的泛化性能,并表明在匹配和不匹配条件下,所提出的系统相比最先进的判别模型在性能上更优。我们还发现,在语音增强中,基于 Heun 的采样器以较小的计算成本实现了更好的性能。
Dec, 2023
本文介绍了一种通过扩展扩散模型进行图像修复的新方法,该方法利用生成过程中与测量身份一致的样本,并结合测量信号与初始化信息来提高生成过程的效果。实验证明了该方法在不同的图像修复任务中的有效性。
Feb, 2024
本文提出了一种新的方法,通过采样识别新目标的自然语音数据,并在推理期间利用加噪扩散语音模型生成具有目标讲话者相似声音的音频,而不需要进行任何训练步骤。
Jun, 2022
借鉴扩散模型的进展,我们提出了一种混合方法以改进超声成像质量,通过适应性去噪扩散恢复模型结合超声物理学和基于学习的方法,并在模拟、离体和体内数据上进行全面的实验,证明其较单一面波输入和现有方法相比实现了高质量的图像重建。
Oct, 2023