Apr, 2018

深度音视频语音增强对话

TL;DR本文提出了一种深度视听语音增强网络方法,借助于对应视频中的嘴唇信息,能够在多人同时说话的情境下,从语音信号中分离出个人的发言,该方法适用于训练时未涉及到的说话者,并在不受限制的环境下,展现了出色的定量和定性效果。