Dec, 2022

EIT: 强化交互式变压器

TL;DR本文提出了一种新的神经网络架构,即增强交互式 Transformer (EIT),用于解决自注意机制中的头部衰减问题。我们将传统的多头自注意机制替换为增强的多头注意力机制 (EMHA),并引入两种交互模型,Inner-Subspace 交互和 Cross-Subspace 交互,以充分利用 EMHA 的映射能力。通过广泛的实验,我们发现 EIT 在多项任务上 (如机器翻译、摘要生成、语法纠正、语言建模和脑疾病自动诊断),仅仅在模型大小方面有很小的增加就能以优异的性能超越传统模型。