Sep, 2024

AfriHuBERT:针对非洲语言的自监督语音表示模型

TL;DR本研究提出了AfriHuBERT,一个基于mHuBERT-147的自监督学习模型,通过在6500小时的语音数据上继续预训练,将支持的非洲语言数量从16种扩展到39种。研究结果显示,其在语言识别和自动语音识别任务中的表现有所提升,并指出现有评估基准对于低资源非洲语言可能存在的数据质量限制,亟需改进。