Nov, 2019

音视频语音识别的循环神经网络转录器

TL;DR本研究提出了一种基于循环神经网络转录者(RNN-T)架构的大规模视音频语音识别系统,并通过比较语音,视觉和视听系统在两个大词汇测试集上的表现,以及在带噪声和重叠的人工干扰的数据上的表现,突显了视觉模态的贡献。据我们所知,我们的系统显著改善了现有技术在公开数据集 LRS3-TED 上的表现。