- 预训练特征引导扩散模型用于语音增强
通过整合频谱特征到变分自编码器(VAE)中,并在反向过程中利用预训练特征进行引导,结合确定性离散积分方法(DDIM)来简化抽样步骤,我们的模型提高了效率和语音增强质量,同时在两个不同信噪比的公共数据集上展示出最先进的结果,超越了其他基线方法 - EARS: 一个用于语音增强和去混响的各向同性全频通话语音数据集的基准测试
发布了 EARS(Expressive Anechoic Recordings of Speech)数据集,包含来自不同背景的 107 位说话者,总计 100 小时的干净、无混响的语音数据。数据集涵盖了多种不同的讲话风格,包括情感性语音、不 - 基于流匹配的零样本 TTS 的噪声稳健性研究
对于从噪声音频提示生成的语音合成,我们研究了多种策略来提高其质量,包括无监督预训练、多说话者检测、基于 DNSMOS 的数据过滤和随机噪声混合微调等,实验证明相较于应用语音增强到音频提示的方法,我们的方法能够显著提高可懂度、说话者相似度以及 - PESQetarian:关于 Goodhart 定律对语音增强的相关性研究
通过对音频增强模型进行评估指标的分析,本篇论文旨在揭示将音频增强模型过度拟合于评估指标可能带来的风险,以及如何利用其他评估指标来确认性能预测。
- 非自回归实时音调转换模型与语音克隆
我们开发了一种实时语音转换模型,具备母语感、最小延迟生成和多样性切换音色、性别和语音口音的能力,从而提高语音质量,增强现有 ASR 系统的识别性能,并适用于实时多用户通信场景。
- 融入曼巴进行语音增强的研究
研究了一种可扩展的状态空间模型(SSM)Mamba,用于语音增强(SE)任务,利用基于 Mamba 的回归模型来表征语音信号,并在 Mamba 上构建了一个 SE 系统,命名为 SEMamba,在基本和高级 SE 系统中集成了 Mamba - 针对设备内单通道语音增强的 Wav2Vec2 嵌入层的深入研究
通过对自监督学习表示进行研究,我们发现它们在挑战性条件下的单通道语音增强任务中几乎没有增加价值。为了系统地评估 SSL 表示对这些增强模型性能的影响,我们提出了多种利用这些嵌入的技术,包括不同形式的知识蒸馏和预训练。
- ICLR仅使用清晰语音的自监督语音质量估计和增强
提出了一种基于自编码器的自监督度量方法(VQScore),用于评估语音质量,并结合领域知识进行模型设计,同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明,该方法和增强模型与有监督基线模型具有竞争力。
- 音频修复的扩散模型
基于扩散模型的音频修复算法在语音增强和音乐修复任务中表现出色,既具有可解释性又具有出色的音质性能。
- 第七届 CHiME 挑战赛 UDASE 任务中语音增强方法的客观和主观评估
本文针对 CHiME-7 UDASE 任务,通过主观和客观评估系统的结果,揭示了主观评分与最近提出的几个监督非入侵性性能指标在语音增强中的有限相关性,并指出可以使用更传统的入侵性客观指标来评估基于回声的 LibriCHiME-5 数据集的领 - 基于扩散的语音增强的方差分析
扩散模型在生成式语音增强中被证明是强大的模型。本文强调方差的规模是语音增强性能的主要参数,并显示它控制了噪声衰减和语音失真之间的权衡,更具体地说,较大的方差增加了噪声衰减并允许减少计算量。
- 可学习的损失交叉混合用于单声道语音增强
通过提出可学习误差混合(LLM)的训练图,改进了基于深度学习的言语增强模型的泛化能力,并在 VCTK 基准测试中表现优于最先进的方法,达到 3.26 个 PESQ。
- ROSE:基于多目标学习的空中交通管制中面向识别的语音增强框架
提出了一种基于编码器 - 解码器的 U-Net 框架的识别导向语音增强(ROSE)框架,以消除空中交通管制 (ATC) 领域的无线电语音回声,并提高语音可懂性和自动语音识别 (ASR) 准确性。ROSE 在 ATC 场景中作为即插即用工具, - 研究语音增强扩散模型的设计空间
扩展图像生成文献中的扩散模型框架以适应语音增强任务,通过探究扩散模型的设计方面,如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量,证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化,并表明适当 - 基于扩散的用于配对和不匹配条件下的语音增强方法及基于 Heun 抽样器的应用
通过使用多个数据库来模拟不匹配的声学条件,我们系统评估了基于扩散模型的语音增强模型的泛化性能,并表明在匹配和不匹配条件下,所提出的系统相比最先进的判别模型在性能上更优。我们还发现,在语音增强中,基于 Heun 的采样器以较小的计算成本实现了 - D4AM:用于下游声学模型的通用去噪框架
在嘈杂环境中,声学模型的性能明显下降。本研究提出了一种用于各种下游声学模型的通用降噪框架 D4AM,通过特定声学模型和相应的分类目标,用反向梯度调整语音增强模型并考虑回归目标作为辅助损失,该方法可以直接估计合适的权重系数,从而避免了额外的训 - LC4SV:学习调节未见说话人验证模型的去噪框架
在嘈杂环境中,为了提高演讲者验证(SV)模型的性能,我们提出了一个名为 LC4SV 的通用降噪框架,采用学习为基础的插值代理,自动生成增强信号与噪声输入之间合适的系数,从而改善 SV 系统的性能。
- DPATD: 双阶段音频变压器降噪
通过利用较小的音频块作为输入,我们提出了一种名为 DPATD 的双相音频变压器模型,该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。
- 基于流匹配的语音生成预训练
我们展示了一个单一的预训练生成模型可以适应不同的下游任务,并展示了其在语音增强、分离和合成方面的性能优于现有专家模型,为语音生成任务构建了一个基础模型。
- uSee: 条件扩散模型下的统一语音增强与编辑
我们提出了一种统一的语音增强和编辑模型(uSee),它采用条件扩散模型以生成方式同时处理多种任务,能根据特定用户需求对语音进行增强和编辑操作。通过提供多种条件,包括自监督学习嵌入和适当的文本提示,我们的 uSee 模型可实现对源语音的可控生