Dec, 2023

评估基于自我监督的语音模型在一个台湾福建语语料库上的表现

TL;DR台語的使用和地位因台灣向普通話的語言轉變而下降。這是目前自然語言處理和語音研究中它成為低資源語言的部分原因。為了確保台語不落後於語音處理技術的最新發展,我們向 ML-SUPERB 的隱藏集合中貢獻了一個 1.5 小時的台語資料集。在我們的資料集上評估 ML-SUPERB 的自我監督學習(SSL)語音表示套件,發現模型大小並不一致地決定性能。實際上,某些較小的模型表現更好。此外,預訓練數據和目標語言之間的語言對齊起關鍵作用。