Sep, 2024

探索数据量对极低资源语言自动语音识别的影响

TL;DR本研究针对低资源自动语音识别(ASR)技术,关注两种濒危的南岛语言Amis和Seediq,探讨数据增强技术的有效性。通过提出一种多语种语料库的数据选择方案,利用自监督学习在低资源环境下进行预训练,从而显著提高ASR性能,展示了通过跨语言迁移学习进行数据增强的可行性和潜力。