May, 2020

Transformer基于语音识别的无监督预训练的进一步研究

TL;DR本文通过进一步研究Masked Predictive Coding的三个重要方面:预训练数据的发言风格,对流式模型的扩展和如何更好地将预训练阶段的知识转移,实验证明,在下游识别任务中,预训练数据与匹配的发言风格更有用,使用APC和MPC的统一培训目标在HKUST上训练的流式模型上提供了8.46%的相对错误率降低,目标数据适应和逐层判别式培训的组合有助于MPC的知识转移,在AISHELL上相对基线实现了3.99%的错误率降低。