BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-head attention system
搜索结果 - 1
PartialFormer:建模部分而非整体
本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构,利用多个较小的前馈神经网络来减少参数和计算量,同时保持重要的隐藏维度,并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进
→
PDF
8 months ago
Prev
Next