Jun, 2023

低资源端到端口音语音识别的多遍训练和交叉信息融合

TL;DR本研究提出了一种基于 Conformer 的架构,即 Aformer,利用大型非方言和有限口音训练数据从声学信息中提取互补的音频信息,并提出了多通道训练和三种跨信息融合方法,用于从 Aformer 的通用编码器和口音编码器中有效地融合信息,实验结果表明,该方法在口音英语和普通话 ASR 任务上相对于强基线 Conformer 的 6 个领域内外测试数据的单词 / 字符错误率降低了 10.2%到 24.5%。