Apr, 2021

一种使用简单数据增强技术的全面依赖文本的端到端发音错误检测和诊断方法

TL;DR本文提出了一种新颖的文本依赖模型来利用前置文本,通过注意力机制将音频与前置文本的音素序列对齐,来实现完全的端到端结构,同时提出了三种简单的数据增强方法来缓解模型捕捉错读音素的能力问题,并在 L2-ARCTIC 数据集上表现出 56.08% 的 F-measure 指标,相较 CNN-RNN-CTC 模型有明显提升。