Oct, 2023

自然语言处理的增强 Transformer 架构

TL;DR本文提出了一种新型 Transformer 结构,其特点是全层归一化、加权残差连接、利用强化学习的位置编码和零屏蔽自注意力。通过使用 Multi30k 翻译数据集进行双语评估替代,验证了所提出的增强型 Transformer 模型。结果显示,增强型 Transformer 的 BLEU 分数比原始 Transformer 模型高出了 202.96%。