BriefGPT.xyz
Nov, 2017
视觉语音增强
Visual Speech Enhancement using Noise-Invariant Training
HTML
PDF
Aviv Gabbay, Asaph Shamir, Shmuel Peleg
TL;DR
本研究使用基于视听神经网络的视觉语音增强方法,在包含有目标演讲者语音的视频背景噪音情况下,通过口型运动提高演讲者语音的清晰度,在嘈杂的环境中实现了语音增强和噪音降低效果,相较于先前的视听方法在两个公共的口形读音数据集上表现更好,同时也是第一个在面向非口形读音的数据集(如巴拉克·奥巴马每周的演讲)上进行的示例研究。
Abstract
visual speech enhancement
is used on videos shot in noisy environments to enhance the voice of a visible speaker and to reduce background noise. While most existing methods use audio-only inputs, we propose an
audio-vis
→