Sep, 2023

AV2Wav:基于扩散的连续自监督特征合成的音频 - 视觉语音增强

TL;DR在这项工作中,我们介绍了 AV2Wav,这是一种基于重新综合的视听语音增强方法,可以在现实训练数据的挑战下生成清晰的语音。我们使用神经质量评估器从视听语音语料库中获取接近干净的子集,然后在这个子集上训练扩散模型,该模型以 AV-HuBERT 的连续语音表示为条件生成波形,并使用抗噪训练。我们使用连续表示而不是离散表示来保留韵律和说话人信息。仅仅通过这个声码任务,该模型的语音增强性能就优于基于掩模的基线。我们进一步在清晰 / 噪声话语对上对扩散模型进行微调以提高性能。我们的方法在自动度量和人工听力测试中均优于基于掩模的基线,并且在听力测试中的质量接近目标语音。