ICCVOct, 2019

基于视觉技术的深度音频修复

TL;DR本文提出了一种名为视觉信息注入音频修补的多模态感知任务,通过学习视觉 - 音频联合特征空间,并在语音谱图上进行操作,能够修补音频中的缺失部分,实现音频与视频同步,经过大规模实验验证该方法的有效性。