Apr, 2018

端到端多模态语音识别

TL;DR探讨了如何应用视觉通道,以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性,并比较了两种方法在干净和嘈杂的数据上的效果。