ICCVAug, 2017

从无声视频中改善语音重构

TL;DR本文介绍了一种基于卷积神经网络的端到端模型,可将无声视频帧转化为可听、自然的语音信号,模型在 GRID 和 TCD-TIMIT 数据集上训练,并使用常见的客观指标评估重建语音的质量和可懂度,结果表明,本文提出的模型在预测语音方面比现有模型得分显著提高,同时展示了从无约束字典重构语音的有 promising 结果。