May, 2020

自注意力何时可被前馈层替代?

TL;DR使用前馈网络替代自注意力模型的编码器中的上层自注意力层,不会造成语音识别性能降低,在较低的自注意力层对输入进行编码已足够获取丰富的上下文信息。