条件扩散模型：目标说话者提取

Oct, 2023

Conditional Diffusion Model for Target Speaker Extraction

Theodor Nguyen, Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C Woodland

TL;DR我们提出了 DiffSpEx，一种基于基于分数的生成建模的目标说话人提取方法，通过随机微分方程实现。 DiffSpEx 在复杂的短时傅里叶变换领域中部署连续时间的随机扩散过程，从目标说话人源开始并收敛到以源混合为中心的高斯分布。对于逆时间过程，一个参数化的分数函数会被调整到一个目标说话人嵌入上，以从多个源的混合中提取目标说话人。我们使用 ECAPA-TDNN 目标说话人嵌入，并交替将分数函数调整到 SDE 时间嵌入和目标说话人嵌入上。我们利用 WSJ0-2mix 数据集展示了 DiffSpEx 的潜力，实现了 12.9 dB 的 SI-SDR 和 3.56 的 NISQA 得分。此外，我们还展示了将预训练的 DiffSpEx 模型微调到特定说话人能进一步提高性能，实现了目标说话人提取中的个性化。

Abstract

We propose diffspex, a generative target speaker extraction method based on score-based generative modelling through stochastic differential equa

diffspex generative target speaker extraction stochastic differential equations ecapa-tdnn target speaker embeddings personalisation in target speaker extraction

发现论文，激发创造

扩散条件期望模型用于高效稳健的目标语音提取

我们提出了一种名为 Diffusion Conditional Expectation Model（DCEM）的高效生成方法，用于目标语音提取（TSE），它可以处理多个和单个说话者的情况，包括噪声和干净条件，并且我们还引入了 Regenerate-DCEM（R-DCEM），可以根据经过预处理的来自判别模型的语音重建和优化语音质量，我们的方法在入侵和非入侵度量方面优于传统方法，并且在推断效率和对未知任务的鲁棒性方面显示出显著优势。

Sep, 2023

SpEx: 多尺度时域说话人提取网络

通过提出 SpEx 网络并采用多尺度嵌入系数，将多说话声音信号转换成特定发言人的声音信号，该网络在信号畸变比（SDR）、比例尺不变信号畸变比（SI-SDR）和语音质量评估（PESQ）等方面均有显著改进。

Apr, 2020

研究语音增强扩散模型的设计空间

扩展图像生成文献中的扩散模型框架以适应语音增强任务，通过探究扩散模型的设计方面，如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量，证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化，并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统，并减少约四分之一的计算成本。

Dec, 2023

用于生成性语音增强的单步和少步扩散

通过两阶段训练方法，我们解决了扩散模型在语音增强中的潜在问题，实现了与基准模型相当的性能，缩短了推理过程时间，并显著优于扩散基线模型。

Sep, 2023

基于扩散型生成模型的无监督语音增强

最近，条件评分驱动扩散模型在监督式语音增强领域引起了显著关注，取得了最先进的性能。然而，这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题，我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言，训练阶段，在短时傅里叶变换（STFT）领域中使用评分驱动扩散模型学习了干净语音的先验分布，使其能够从高斯噪声中无条件地生成干净语音。然后，我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化（EM）方法与干净语音估计同时学习。据我们所知，这是第一个探索基于扩散的生成模型用于无监督语音增强的工作，与最近的变分自编码器（VAE）无监督方法和最先进的基于扩散的监督方法相比，取得了有希望的结果。因此，它为未来的无监督语音增强研究开辟了新的方向。

Sep, 2023

一种灵活的扩散模型

本研究提出了一个通用的模型参数化框架，尤其是针对前向 SDE 的空间部分，通过理论保障和实验证明了其优越性。

Jun, 2022

SpEx+: 一个完整的时域说话人提取网络

本文提出了一种完整的时域说话人提取解决方案 SpEx+ ，通过绑定两个相同语音编码器网络的权重来消除时域与频域之间的不匹配，实验证明 SpEx+ 在不同和相同性别条件下，比现有的 SpEx 基准系统有 0.8dB 和 2.1dB 的 SDR 提高。

May, 2020

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

DiffSpeaker：基于扩散变换的语音驱动 3D 人脸动画

使用 DiffSpeaker 网络，该网络具备新颖的有偏条件注意力模块，用于聚焦任务相关和扩散相关的条件，从而解决传统的 Diffusion 模型和 Transformer 架构在语音驱动的 3D 面部动画生成中性能提升有限的问题。我们的模型在现有基准测试中不仅达到了最先进的性能，而且由于能够并行生成面部动作，具备快速推理的速度。

Feb, 2024

基于扩散的具有风格建模的表达性文本转语音系统对时间变异性进行研究

基于参考语音的语音合成已经被广泛研究来合成自然语音，但在获取良好的表达风格和提高模型泛化能力方面存在限制。本研究提出了基于扩散的表达性语音合成 (DEX-TTS)—— 一种用于参考语音合成的声学模型，具有增强的风格表达能力。DEX-TTS 基于通用的扩散语音合成框架，包括编码器和适配器，用于处理从参考语音中提取的风格。关键创新包括将风格区分为时不变和时变两个类别，以实现有效的风格提取，以及高泛化能力的编码器和适配器的设计。此外，我们引入了重叠的 patchify 和卷积频率 patch 嵌入策略，以改进基于 DiT 的扩散网络用于 TTS。DEX-TTS 在英语多说话人和情感多说话人数据集上在客观和主观评估方面取得了出色的性能，而无需依赖预训练策略。最后，对于单说话人数据集的一般 TTS 的比较结果验证了我们增强的扩散骨干的有效性。演示请参见此处。

Jun, 2024