BriefGPT.xyz
大模型
Ask
alpha
关键词
drelu function
搜索结果 - 1
Turbo 稀疏:最小激活参数实现 LLM 的最新技术表现
利用激活稀疏性是大型语言模型(LLM)推理过程中显著加速的一种有希望的方法,但是激活稀疏性由激活函数决定,而常用的 SwiGLU 和 GeGLU 等函数显示出有限的稀疏性,仅用 ReLU 替换这些函数无法实现足够的稀疏性,此外,不充分的训练
→
PDF
24 days ago
Prev
Next