Mar, 2017

将 Residual Networks 与 LSTMs 组合用于唇语识别

TL;DR本文提出了一种端到端的深度学习架构用于字级视觉语音识别,该方法结合了时空卷积、残量和双向长短时记忆网络,该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率,相较于当前的最先进方法有 6.8 的绝对提升,且在训练和测试过程中均未使用有关单词边界的信息。