Jun, 2024

基于音高感知的 Mandarin Chinese 语音错误检测与诊断的 RNN-T

TL;DR本研究介绍了一种基于华文的 MDD(Mispronunciation Detection and Diagnosis)系统,采用无状态的 RNN-T 模型,利用带音高嵌入的 HuBERT 特征通过音高融合块进行训练,该模型仅使用母语人士的数据,在非母语场景中,其在电话错误率上表现出 3%的改进和假接受率上的 7%增加,优于现有技术基准。