BriefGPT.xyz
Ask
alpha
关键词
feed-forward net design
搜索结果 - 1
针对 Transformer 的预训练和推理的并行注意力和前馈网络设计
本文介绍了并行注意力和前馈网络设计(PAF),以提高 Transformer 模型的效率,并评估了它在语言理解任务中的性能与速度表现,与 Series Attention 和 Feed-Forward Net Design 相比,PAF 设
→
PDF
a year ago
Prev
Next