Sep, 2023

SSHR:利用自监督层级表征进行多语言自动语音识别

TL;DR通过使用自我监督学习(SSHR)的分层表示,我们提出了一种新方法来优化多语种自动语音识别(ASR)。我们分析了自我监督学习模型的不同层次,发现了与语言和内容相关的信息,从相关的中间层中提取与语言相关的帧,并通过自注意机制引导针对特定内容的提取。此外,我们使用提出的Cross-CTC在最后几层中引导模型获取更多与内容相关的信息。通过在Common Voice和ML-SUPERB这两个多语种数据集上的评估,实验结果表明我们的方法在我们所知的范围内达到了最先进的性能。