BriefGPT.xyz
大模型
Ask
alpha
关键词
mixture-of-expert models
搜索结果 - 3
基于块选择性重编程的视觉 Transformer 设备端训练
通过研究现有的内置训练方法的局限性,本文提出了基于块选择性重编程(BSR)的方法,在部分冻结层的基础上,根据自注意力得分从预训练模型中选择性地丢弃令牌,有效地减少训练内存和计算成本,同时保持相似的准确性,适用于多任务学习场景。
PDF
3 months ago
BlackMamba: 状态空间模型的专家混合
利用 Mamba SSM 和 MoE 相结合的新型架构 BlackMamba,在模型训练和推理 FLOPs 方面表现优秀,实现了 SSM 的线性复杂度生成和 MoE 快速高效推理的结合。
PDF
5 months ago
稀疏反向传播用于 MoE 训练
通过 SparseMixer 建立了稀疏计算与反向传播之间的桥梁,提供可靠的梯度估计,并加速了 Switch Transformer 的训练收敛速度。
PDF
9 months ago
Prev
Next