Jun, 2024

增强式儿童语音识别技术的改进

TL;DR儿童语音识别的表现有待提高,本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换,结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示,对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果,相较于基准线而言,两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外,使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。