MMAug, 2020

面向文本的 Transformer 模型用于自动语音发音错误检测

TL;DR本文提出了一种使用目标文本作为条件的 Transformer 模型,以在完全端到端的方式下输出考虑输入语音与目标文本关系的错误状态,提高了速度,并在 L2-Arctic 数据集上实验表明相对于 ASR-based 模型,提高了 8.4%的 $ F_1 $ 分数指标。