Feb, 2018

端到端音视频语音识别

TL;DR本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型,该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型,并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。