Oct, 2023

uSee: 条件扩散模型下的统一语音增强与编辑

TL;DR我们提出了一种统一的语音增强和编辑模型(uSee),它采用条件扩散模型以生成方式同时处理多种任务,能根据特定用户需求对语音进行增强和编辑操作。通过提供多种条件,包括自监督学习嵌入和适当的文本提示,我们的 uSee 模型可实现对源语音的可控生成,以进行相应操作。我们的实验显示,与其他相关生成式语音增强模型相比,我们提出的 uSee 模型在消除噪音和减轻混响方面具有出色的性能,并可根据所需的环境声音文本描述、信噪比和房间冲激响应进行语音编辑。可在此 https 网址查看生成语音的示例。