AAAIFeb, 2016
多模态 LSTM 的发言人识别技术 - 看、听、学习
Look, Listen and Learn - A Multimodal LSTM for Speaker Identification
Jimmy Ren, Yongtao Hu, Yu-Wing Tai, Chuan Wang, Li Xu...
TL;DR本文提出了一种新颖的多模态长短时记忆结构 (MLSTM),它可以无缝整合来自视频序列的视觉和听觉信息,建模人脸和声音之间的时间依赖关系,从而提高语音识别的鲁棒性和识别精度。