May, 2023

GNCformer 增强的自注意力机制用于自动语音识别

TL;DR本文提出了增强的自注意机制(ESA)用于鲁棒特征提取,并将其融合到 Transformer 网络的编码层中进行自动语音识别(ASR)任务,这一新模型被命名为 GNCformer。通过 Aishell-1 和 HKUST 数据集的实验证明,GNCformer 相较于 Transformer 网络,能分别提高 0.8% 和 1.2%的字符错误率(CER),并且只增加了 1.4M 的额外参数量。