May, 2023

利用言语障碍严重程度进行口吃性言语识别

TL;DR本文提出了一套新的方法,即使用多任务训练,包含严重程度预测误差、说话者 - 严重程度感知辅助特征适应以及基于与严重度有关和说话者身份有关的 LHUC 转换来进行发音障碍语音识别,结果实验表明将额外的语音障碍严重度纳入最先进的混合 DNN、E2E Conformer 和预训练的 Wav2vec 2.0 ASR 系统,可以产生显著的 WER 下降,最低 WER 达到 17.82%。