BriefGPT.xyz
Ask
alpha
关键词
all-mlp
搜索结果 - 1
利用稀疏全连接多层感知机进行高效的语言建模
该论文提出稀疏激活多层感知机结合混合专家模型在语言建模任务上显著提高模型容量和表达能力,同时保持运算速度稳定,相较于 Transformer-based MoEs、密集型 Transformer 和全连接 MLP 在训练效率和语言建模复杂度
→
PDF
2 years ago
Prev
Next