May, 2020

基于 Transformer 的端到端语音识别中简化的自注意力机制

TL;DR本文提出了一种简化的自我注意力(SSAN)层,用于 Transformer 模型的端到端语音识别任务中,以降低模型复杂度和维护良好性能,并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明,我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少,在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低,而且在 20000 小时的大规模任务中,模型失去识别性能。