Jun, 2023
使用非尖峰 CTC 提高端到端自动语音识别中单词时间的帧级分类器
Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech Recognition
Xianzhao Chen, Yist Y. Lin, Kang Wang, Yi He, Zejun Ma
TL;DR本文提出了一种在 E2E 系统中改进字时分类器的方法,该方法采用了传统的 CTC 损失连接与低级别 Mel-scale 滤波器和高级 ASR 编码器输出相结合的输入特征。与混合系统和之前的 E2E 方法相比,在内部中文语料库上,提出的方法在字时准确性指标上分别取得了 95.68%/94.18%的成绩,并通过延迟 CTC 峰值来进一步提高了字时准确性。