AAAIFeb, 2016

多模态 LSTM 的发言人识别技术 - 看、听、学习

TL;DR本文提出了一种新颖的多模态长短时记忆结构 (MLSTM),它可以无缝整合来自视频序列的视觉和听觉信息,建模人脸和声音之间的时间依赖关系,从而提高语音识别的鲁棒性和识别精度。