Apr, 2023

一种基于 CTC 对齐的非自回归变压器模型用于端到端自动语音识别

TL;DR本论文介绍了一种 CTC Alignment-based Single-Step Non-Autoregressive Transformer(CASS-NAT)方法,用于自动语音识别,通过利用与 CTC 对齐的语音边界信息提取标记级别音频嵌入来提高推理速度,实现了自监督学习,提出了多个训练策略来改善单词错误率(WER)表现,并探究了基于误差的对齐采样方法以减少训练和测试过程中的对齐不匹配,实验结果表明 CASS-NAT 对于多个 ASR 任务具有接近于 AT 的 WER,同时提供了~24 倍的推理加速,并且未经过语言模型的情况下,实现了新的最高效果。