扩散条件期望模型用于高效稳健的目标语音提取

Sep, 2023

扩散条件期望模型用于高效稳健的目标语音提取

Diffusion Conditional Expectation Model for Efficient and Robust Target Speech Extraction

Leying Zhang, Yao Qian, Linfeng Yu, Heming Wang, Xinkai Wang...

TL;DR我们提出了一种名为 Diffusion Conditional Expectation Model（DCEM）的高效生成方法，用于目标语音提取（TSE），它可以处理多个和单个说话者的情况，包括噪声和干净条件，并且我们还引入了 Regenerate-DCEM（R-DCEM），可以根据经过预处理的来自判别模型的语音重建和优化语音质量，我们的方法在入侵和非入侵度量方面优于传统方法，并且在推断效率和对未知任务的鲁棒性方面显示出显著优势。

Abstract

target speech extraction (TSE) is a crucial task in speech processing that focuses on isolating the clean speech of a specific speaker from complex mixtures. While discriminative methods are commonly used for TSE, they can introduce distortion in terms of speech perception quality. On

target speech extraction generative approach diffusion conditional expectation model regenerate-dcem inference efficiency

发现论文，激发创造

条件扩散模型：目标说话者提取

我们提出了 DiffSpEx，一种基于基于分数的生成建模的目标说话人提取方法，通过随机微分方程实现。 DiffSpEx 在复杂的短时傅里叶变换领域中部署连续时间的随机扩散过程，从目标说话人源开始并收敛到以源混合为中心的高斯分布。对于逆时间过程，一个参数化的分数函数会被调整到一个目标说话人嵌入上，以从多个源的混合中提取目标说话人。我们使用 ECAPA-TDNN 目标说话人嵌入，并交替将分数函数调整到 SDE 时间嵌入和目标说话人嵌入上。我们利用 WSJ0-2mix 数据集展示了 DiffSpEx 的潜力，实现了 12.9 dB 的 SI-SDR 和 3.56 的 NISQA 得分。此外，我们还展示了将预训练的 DiffSpEx 模型微调到特定说话人能进一步提高性能，实现了目标说话人提取中的个性化。

Oct, 2023

噪声感知语音增强处理技术 —— 基于扩散概率模型

本文提出了一种噪声感知语音增强方法，通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程，并采用多任务学习模式来优化增强和分类任务，实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法，尤其是在未知噪声上表现出较好的泛化性能。

Jul, 2023

基于扩散的语音增强与带权的生成 - 监督学习损失

通过引入均方误差损失（MSE）来改善扩散训练目标，度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异，提出了一种增强语音的方法，实验证明其有效性。

Sep, 2023

基于扩散的语音增强：联合生成和预测解码器

本文提出一种整合预测语音增强和扩散语音增强的统一系统，通过编码两者信息，并应用生成和预测解码器，最终将两种方法的输出融合，实现语音增强。实验证明，该方法可加快解码速度并提高性能。

May, 2023

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

研究语音增强扩散模型的设计空间

扩展图像生成文献中的扩散模型框架以适应语音增强任务，通过探究扩散模型的设计方面，如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量，证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化，并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统，并减少约四分之一的计算成本。

Dec, 2023

uSee: 条件扩散模型下的统一语音增强与编辑

我们提出了一种统一的语音增强和编辑模型（uSee），它采用条件扩散模型以生成方式同时处理多种任务，能根据特定用户需求对语音进行增强和编辑操作。通过提供多种条件，包括自监督学习嵌入和适当的文本提示，我们的 uSee 模型可实现对源语音的可控生成，以进行相应操作。我们的实验显示，与其他相关生成式语音增强模型相比，我们提出的 uSee 模型在消除噪音和减轻混响方面具有出色的性能，并可根据所需的环境声音文本描述、信噪比和房间冲激响应进行语音编辑。可在此 https 网址查看生成语音的示例。

Oct, 2023

基于扩散型生成模型的无监督语音增强

最近，条件评分驱动扩散模型在监督式语音增强领域引起了显著关注，取得了最先进的性能。然而，这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题，我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言，训练阶段，在短时傅里叶变换（STFT）领域中使用评分驱动扩散模型学习了干净语音的先验分布，使其能够从高斯噪声中无条件地生成干净语音。然后，我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化（EM）方法与干净语音估计同时学习。据我们所知，这是第一个探索基于扩散的生成模型用于无监督语音增强的工作，与最近的变分自编码器（VAE）无监督方法和最先进的基于扩散的监督方法相比，取得了有希望的结果。因此，它为未来的无监督语音增强研究开辟了新的方向。

Sep, 2023

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021