Jul, 2019

嘴唇闭合:透过障碍物进行视听言语增强

TL;DR本文提出了一种深度音频 - 视觉语音增强网络,该网络可以通过对说话者的嘴唇动作和 / 或声音来分离说话者的声音,在嘴部区域引入人工遮挡并通过混合音频来训练模型,实现说话者独立,且在视觉感知受阻的情况下表现优异的应用。