Dec, 2020

无需实际视觉流的视觉语音增强

TL;DR本文提出了一个基于说话者的唇部动作的噪音滤波器模型,该模型利用了最新的语音驱动唇部合成技术,能够在缺少视觉流的情况下优化语音质量和可懂性,并通过定量和人工评估证明了其有效性。