BriefGPT.xyz
Ask
alpha
关键词
moe model
搜索结果 - 2
MoE Jetpack:从密集检查点到自适应的专家混合用于视觉任务
我们介绍了 MoE Jetpack,这是一种将密集检查点优化为 MoE 模型的有效方法。MoE Jetpack 包括两个关键技术:(1) 检查点回收,将密集检查点重新用于 MoE 模型的初始权重,以加速收敛、提高准确性并减轻预训练的计算负担
→
PDF
a month ago
最小二乘估计在 Softmax 门限混合专家中的应用
在本研究中,我们探究了在数据按照回归模型进行采样的确定性混合专家模型下,最小二乘估计器(LSE)的性能,并建立了称为强可辨识性的条件,以表征不同类型的专家函数的收敛行为。我们证明了广泛使用的具有激活函数 sigmoid 和 tanh 的前馈
→
PDF
5 months ago
Prev
Next