Jun, 2024

基于参数化和非参数化 CNN 的原始波形声学模型的语音误差分析

TL;DR在这篇论文中,我们分析了 TIMIT 语音识别任务中原始波形声学模型的错误模式,对传统的音素错误率指标进行了超越。我们将音素分为三组,计算了每个广义音素类别的音素错误率,并构建了每个类别的混淆矩阵,与 Filterbank 和 Wav2vec 2.0 系统的混淆模式进行了比较。我们的原始波形声学模型采用参数化(Sinc2Net)或非参数化 CNNs 和双向 LSTMs,并在 TIMIT 开发 / 测试集上实现了 13.7%/15.2% 的音素错误率,超过了文献中报告的原始波形模型的音素错误率。我们还研究了从 WSJ 进行的迁移学习对音素错误模式和混淆矩阵的影响,将音素错误率降低到了 11.8%/13.7%。