Nov, 2023

简化 Transformer 块

TL;DR通过信号传播理论和经验观察,我们提出了修改的方案,可以简化标准的 Transformer 模块,包括去除跳跃连接、投影或值参数、顺序子模块和归一化层等组件,而无需牺牲训练速度,实验证明这种简化版本的 Transformer 实现了标准 Transformer 的更新速度和性能,同时训练吞吐量提高了 15%,参数数量减少了 15%。