Sep, 2017

端到端的多视角唇读

TL;DR本研究提出使用双向长短时记忆(BLSTM)网络的多视角口型识别系统,在直接从不同口型图像姿势中提取特征的基础上,同时学习多视角的视觉特征和语音分类。通过在 OuluVS2 数据库上进行测试,最佳三种视角模型较现有多视图最新性能提高 10.5%,最大分类精度为 96.9%。