Oct, 2019

使用无监督预训练改进基于 Transformer 的语音识别

TL;DR提出一种称为 Masked Predictive Coding 的无监督预训练方法,可用于 Transformer-based 模型的无监督预训练,其应用于 HKUST 的实验表明,使用相同的训练数据,我们可以实现 CER 为 23.3%,超过最佳的端到端模型 0.2% 的绝对 CER。使用更多的预训练数据,我们可以进一步将 CER 降至 21.0%,相对 CER 基线降低 11.8%。