Apr, 2023

ResiDual:带有双重残差连接的 Transformer 模型

TL;DR本研究提出了一种新的 Transformer 结构 ResiDual,它融合了 Post-Layer-Normalization 和 Pre-Layer-Normalization 的优点,同时避免了它们的缺点,有效地解决了 Transformer 中残差连接的实现问题,并在多个机器翻译基准测试中取得了超过现有模型的优异表现,可以作为不同人工智能模型(例如大型语言模型)的基础架构。