Oct, 2023
透视对话: 基于扩散模型的音频-视觉语音分离
Seeing Through the Conversation: Audio-Visual Speech Separation based on
Diffusion Model
TL;DR本文介绍了AVDiffuSS,一种基于扩散机制的音视频语音分离模型,通过视觉线索从声音混合中提取目标发言者的声音,该模型在保持自然性方面具有挑战,并提出了一种基于交叉注意力的特征融合机制,以实现两种模态的有效融合,并在语音生成中集成语音视觉对应的语音信息,通过该提出的框架在VoxCeleb2和LRS3这两个基准测试上取得了最先进的结果,生成的语音具有显著更好的自然音质。