Jun, 2024

零封多语言口语关键词识别的通用语言特征建模

TL;DR我们提出了一种新颖的语言通用方法来实现自动口语关键词识别,在自我监督预训练模型和一系列通用语音属性(发音方式和发音位置)的基础上进行。具体来说,我们使用 Wav2Vec2.0 生成强大的语音表示,然后通过线性输出层产生属性序列。在多语言环境中,非可训练的发音模型将属性序列映射为口语关键词。在多语种口语识别任务中的实验证明,我们的方法在已知语言中与基于字符和音素的方法具有可比较的性能。引入领域对抗训练(DAT)后,我们的框架的性能得到了提升,在已知语言中,相对字错误率(WER)减少了 13.73% 和 17.22%,在零样本语言中,WER 减少了 32.14% 和 19.92%。