uSee: 条件扩散模型下的统一语音增强与编辑

Oct, 2023

uSee: 条件扩散模型下的统一语音增强与编辑

uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models

Muqiao Yang, Chunlei Zhang, Yong Xu, Zhongweiyang Xu, Heming Wang...

TL;DR我们提出了一种统一的语音增强和编辑模型（uSee），它采用条件扩散模型以生成方式同时处理多种任务，能根据特定用户需求对语音进行增强和编辑操作。通过提供多种条件，包括自监督学习嵌入和适当的文本提示，我们的 uSee 模型可实现对源语音的可控生成，以进行相应操作。我们的实验显示，与其他相关生成式语音增强模型相比，我们提出的 uSee 模型在消除噪音和减轻混响方面具有出色的性能，并可根据所需的环境声音文本描述、信噪比和房间冲激响应进行语音编辑。可在此 https 网址查看生成语音的示例。

Abstract

speech enhancement aims to improve the quality of speech signals in terms of quality and intelligibility, and speech editing refers to the process of editing the speech according to specific user needs. In this p

speech enhancement speech editing usee model conditional diffusion models generative speech enhancement

发现论文，激发创造

噪声感知语音增强处理技术 —— 基于扩散概率模型

本文提出了一种噪声感知语音增强方法，通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程，并采用多任务学习模式来优化增强和分类任务，实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法，尤其是在未知噪声上表现出较好的泛化性能。

Jul, 2023

基于扩散型生成模型的无监督语音增强

最近，条件评分驱动扩散模型在监督式语音增强领域引起了显著关注，取得了最先进的性能。然而，这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题，我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言，训练阶段，在短时傅里叶变换（STFT）领域中使用评分驱动扩散模型学习了干净语音的先验分布，使其能够从高斯噪声中无条件地生成干净语音。然后，我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化（EM）方法与干净语音估计同时学习。据我们所知，这是第一个探索基于扩散的生成模型用于无监督语音增强的工作，与最近的变分自编码器（VAE）无监督方法和最先进的基于扩散的监督方法相比，取得了有希望的结果。因此，它为未来的无监督语音增强研究开辟了新的方向。

Sep, 2023

基于评分的生成模型的音视频语音增强

本文介绍了一种利用基于分数的生成模型，即扩散模型，以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入，将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明，所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果，并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持，其中尤其在输入信噪比低的情况下，该模型的单词错误率明显降低。

Jun, 2023

扩散模型中的统一概念编辑

文本到图像模型存在各种安全问题，先前的方法分别解决了偏见、版权和冒犯内容问题，但在实际环境中，所有这些问题同时出现在同一个模型中。我们提出了一种能够一次性处理所有问题的方法，名为统一概念编辑（UCE），通过一个闭合解而无需训练来修改模型，并可无缝扩展到对文本条件扩散模型的并发修改。我们演示了通过编辑文本到图像投影来实现可扩展的同时去偏、擦除风格和内容审查，并通过大量实验证明了相对于之前工作的改进效果和可伸缩性。我们的代码可在此 https URL 中获取。

Aug, 2023

扩散条件期望模型用于高效稳健的目标语音提取

我们提出了一种名为 Diffusion Conditional Expectation Model（DCEM）的高效生成方法，用于目标语音提取（TSE），它可以处理多个和单个说话者的情况，包括噪声和干净条件，并且我们还引入了 Regenerate-DCEM（R-DCEM），可以根据经过预处理的来自判别模型的语音重建和优化语音质量，我们的方法在入侵和非入侵度量方面优于传统方法，并且在推断效率和对未知任务的鲁棒性方面显示出显著优势。

Sep, 2023

研究语音增强扩散模型的设计空间

扩展图像生成文献中的扩散模型框架以适应语音增强任务，通过探究扩散模型的设计方面，如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量，证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化，并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统，并减少约四分之一的计算成本。

Dec, 2023

基于扩散的语音增强：联合生成和预测解码器

本文提出一种整合预测语音增强和扩散语音增强的统一系统，通过编码两者信息，并应用生成和预测解码器，最终将两种方法的输出融合，实现语音增强。实验证明，该方法可加快解码速度并提高性能。

May, 2023

预训练特征引导扩散模型用于语音增强

通过整合频谱特征到变分自编码器（VAE）中，并在反向过程中利用预训练特征进行引导，结合确定性离散积分方法（DDIM）来简化抽样步骤，我们的模型提高了效率和语音增强质量，同时在两个不同信噪比的公共数据集上展示出最先进的结果，超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能，还增强了实际部署能力，而不增加计算需求。

Jun, 2024

音频驱动的预训练扩散模型生成与编辑

我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。

May, 2024

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022