Sep, 2018

基于混合 CTC / 注意力架构的音视频语音识别

TL;DR本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型,并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点,并且在噪声环境下表现出色, 是当前状态下最新的结果。