MMJun, 2023

基于评分的生成模型的音视频语音增强

TL;DR本文介绍了一种利用基于分数的生成模型,即扩散模型,以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入,将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明,所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果,并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持,其中尤其在输入信噪比低的情况下,该模型的单词错误率明显降低。