Jul, 2023

利用数据增强和 VTLN 减少荷兰语端到端语音识别系统中的偏差

TL;DR本研究采用速度扰动及谱增强的数据增强技术和 Vocal Tract Length Normalization 技术用于 end-to-end ASR 系统,旨在减少针对不同年龄组和非母语的荷兰语说话者的偏见,减少了平均 WER 和不同的说话人群之间的差异,同时该模型还适用于普通话儿童语音。