Sep, 2016

Wav2Letter: 一种基于端到端的卷积神经网络语音识别系统

TL;DR本论文提出一种简单的端对端语音识别模型,用卷积神经网络基于声学模型和图解码相结合,通过输出字母实现语音转录,无需强制调整音素位置。我们引入了一种自动分割标准以进行序列注释的训练,不需要对齐即可达到与 CTC 相当的效果。我们证明了在使用 MFCC 特征的 Librispeech 数据集上具有竞争力的单词错误率,并在原始波形上得到有希望的结果。