May, 2018

基于 Transformer 的中文序列到序列语音识别中建模单元的比较

TL;DR本论文探讨了在 Mandarin Chinese ASR 任务中使用不同建模单元(包括 CI-phonemes、音节、单词、子词和字符)在基于序列到序列关注机制的 Transformer 模型中的表现比较,结果表明基于字符的模型 CER 最好,其对于没有手动设计的词典和额外语言模型的 HKUST 数据集的最新 CER 为 26.64%,相对于现有最佳 CER 28.0%的 CTC-attention-based encoder-decoder 网络,有 4.8%的相对改进。