Nov, 2017

视觉语音增强

TL;DR本研究使用基于视听神经网络的视觉语音增强方法,在包含有目标演讲者语音的视频背景噪音情况下,通过口型运动提高演讲者语音的清晰度,在嘈杂的环境中实现了语音增强和噪音降低效果,相较于先前的视听方法在两个公共的口形读音数据集上表现更好,同时也是第一个在面向非口形读音的数据集(如巴拉克·奥巴马每周的演讲)上进行的示例研究。