Apr, 2023
ResiDual:带有双重残差连接的 Transformer 模型
ResiDual: Transformer with Dual Residual Connections
Shufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian...
TL;DR本研究提出了一种新的 Transformer 结构 ResiDual,它融合了 Post-Layer-Normalization 和 Pre-Layer-Normalization 的优点,同时避免了它们的缺点,有效地解决了 Transformer 中残差连接的实现问题,并在多个机器翻译基准测试中取得了超过现有模型的优异表现,可以作为不同人工智能模型(例如大型语言模型)的基础架构。