Mar, 2018

LCANet: 级联注意力 - CTC 的端到端唇语识别

TL;DR本文提出了一种基于端到端深度神经网络的 LCANet 口型识别系统,利用 3D CNN、highway network 和双向 GRU network 来捕捉短期和长期的空时信息,并采用连续的注意力 - CTC 解码器来生成输出文字,实验结果表明,与现有的最先进方法相比,所提出的系统在 GRID 语料库上取得了 1.3% 的 CER 和 3.0% 的 WER,有 12.3% 的改进。