Jan, 2015

深度多模态学习用于音视频语音识别

TL;DR本文介绍深度多模态学习的方法,用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明,使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。