Jul, 2018

大规模视觉语音识别

TL;DR本文提出一个可扩展的开放词汇视觉语音识别方案,通过构建目前最大的视频对话集和一个设计的集成唇读系统,其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线,一个可扩展的深度神经网络,以将唇部视频映射到音素分布序列,并输出单词序列的生产级语音解码器,该系统以 40.9%的单词错误率成功应用在数据集上,与其他唇读方法相比更具有效性。