May, 2023

针对 Transformer 的预训练和推理的并行注意力和前馈网络设计

TL;DR本文介绍了并行注意力和前馈网络设计(PAF),以提高 Transformer 模型的效率,并评估了它在语言理解任务中的性能与速度表现,与 Series Attention 和 Feed-Forward Net Design 相比,PAF 设计可以实现 1.5 倍到 2 倍的速度提升。