MMNov, 2022

通过微调自监督成人语音表示提高儿童的语音识别能力

TL;DR本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型,分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响,结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至 46.08% 和 45.53% 并且实现绝对改进 14.70% 和 31.10%,同时通过仅需要 5 个小时的儿童语音数据,也可以超越在 960 个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。