Sep, 2018
基于混合 CTC / 注意力架构的音视频语音识别
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture
Stavros Petridis, Themos Stafylakis, Pingchuan Ma, Georgios Tzimiropoulos, Maja Pantic
TL;DR本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型,并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点,并且在噪声环境下表现出色, 是当前状态下最新的结果。