May, 2020

轻量级音视话语增强

TL;DR本研究提出了一种 “轻量级视听语音增强” 系统(LAVSE),该系统通过采用两种视觉数据压缩技术和去除训练模型中的人脸或唇部图像的特征提取网络,以达到更好的在线计算效率和更好的性能,从而在保障隐私的前提下,实现了比仅使用音频的增强系统更出色的性能表现。