Sep, 2023

减少、重用、循环利用:扰动数据是否比其他语言增强对于低资源自我监督语音模型更好

TL;DR利用音频增强方法预训练自监督表示学习(SSRL)模型,相比监督模型,在低资源语言中改善了下游音素识别性能。研究比较了不同的增强技术,包括音高变化、噪音添加、目标语言口音和其他语言语音,并发现了综合增强(噪音 / 音高)是最佳的增强策略,超过了口音和语言知识迁移。研究结果表明,在资源有限的语言中,领域内的合成增强可以优于口音或其他语言的知识迁移。