Mar, 2023

基于混合 CTC/Attention 架构和多特征融合网络的土耳其语音识别探索

TL;DR本文针对土耳其缺乏语音数据造成的语音识别系统性能差问题,通过采用一系列调优技术,提出了结合速度扰动和噪声叠加的数据增强技术和新型特征提取器 LSPC,并将其与 LiGRU 网络结合,形成共享编码器结构并实现模型压缩,最终提出了基于 LSPC 的多特征融合网络作为编码器的主要结构,使得该模型性能可与先进的端到端模型相媲美,该模型相比单特征提取使用 LSPC 时可将单词错误率提高 0.82%-1.94%。