Sep, 2024
探索数据量对极低资源语言自动语音识别的影响
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource
Languages
TL;DR本研究针对低资源自动语音识别(ASR)技术,关注两种濒危的南岛语言Amis和Seediq,探讨数据增强技术的有效性。通过提出一种多语种语料库的数据选择方案,利用自监督学习在低资源环境下进行预训练,从而显著提高ASR性能,展示了通过跨语言迁移学习进行数据增强的可行性和潜力。