Jun, 2023

通过横向抑制提升预训练语音模型在低资源语言上的性能

TL;DR使用來自 Transformer 模型的雙向編碼器表示法,在語言處理方面取得成功後,語音社區也採用了其中的一些開發方法,所以 Wav2Vec 模型被引入來減少取得最新成果所需的數據。基於該認識,本研究通過將精調的密集層替換為受生物過程啟發的側抑制層,提高了預訓練語音模型的性能。我們對羅馬尼亞語,即一種資源較低的語言進行實驗,結果顯示使用側抑制層平均可以減少 12.5% 的字錯誤率,此外,在羅馬尼亞語語音語料庫和 Robin 技術採集語料庫上實現了最新最好成果,分別為 1.78% 和 29.64% 的字錯誤率。