Jun, 2023

使用非尖峰 CTC 提高端到端自动语音识别中单词时间的帧级分类器

TL;DR本文提出了一种在 E2E 系统中改进字时分类器的方法,该方法采用了传统的 CTC 损失连接与低级别 Mel-scale 滤波器和高级 ASR 编码器输出相结合的输入特征。与混合系统和之前的 E2E 方法相比,在内部中文语料库上,提出的方法在字时准确性指标上分别取得了 95.68%/94.18%的成绩,并通过延迟 CTC 峰值来进一步提高了字时准确性。