Jan, 2017

基于 LSTM 的端到端视觉语音识别

TL;DR本文提出一种基于 LSTM 网络的端到端视觉语音识别系统,同时学习从像素直接提取特征和分类,取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM(BLSTM)融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7%,在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5%。