BriefGPT.xyz
Ask
alpha
关键词
multi-head mixture-of-experts (mh-moe)
搜索结果 - 1
多头专家混合
多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌,并并行分配给和处理多样的专家集,然后无缝地重新集成到原始令牌形式,从而增强了训练中的专家激活,深化了上下文理解,减轻过拟合,同时易于实施和与其他 SMoE 模型集成
→
PDF
2 months ago
Prev
Next