BriefGPT.xyz
大模型
Ask
alpha
关键词
single shared attention module
搜索结果 - 1
Zamba: 一个紧凑的 70 亿参数 SSM 混合模型
Zamba 是一个独特的 7B SSM-transformer 混合模型,通过使用 Mamba 骨干和单个共享的注意力模块,以最小的参数成本实现与领先的开放式模型相媲美的性能,同时具有更快的推理速度和更低的内存需求,且在预训练中使用两个阶段
→
PDF
a month ago
Prev
Next