BriefGPT.xyz
大模型
Ask
alpha
关键词
embedding sharing
搜索结果 - 1
MobileLLM: 优化千亿级语言模型,以满足设备上的使用需求
通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制,我们提出了一种名为 MobileLLM 的强基线网络,它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外,我们还提出了一种即时的分块权重共享方
→
PDF
4 months ago
Prev
Next