Jan, 2022

探究无序语音识别数据增强技术

TL;DR本文研究了一组用于混乱语音识别的数据增强技术,包括声道长度扰动(VTLP)、节奏扰动和速度扰动,并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献(LHUC)的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92%绝对(9.3%相对)的词错误率(WER),并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37%的整体 WER。