BriefGPT.xyz
大模型
Ask
alpha
关键词
moe models
搜索结果 - 4
动态数据混合最大化专家混合模型的指令调优
基于混合专家模型(Mixture-of-Experts),提出了一种动态数据混合的处理方法以优化模型性能,通过动态地调整训练数据的采样权重,减少数据集中的冗余,从而在有限的训练预算下最大化整体性能。
PDF
17 days ago
分量化专家混合 (MoQE): 低位量化和鲁棒性的互补效果
提出了一种名为 Mixture of Quantized Experts (MoQE) 的简单权重量化方法,可以降低 Mixture of Experts (MoE) 模型的内存消耗和延迟问题,同时保持可靠的模型性能,并可在大多数情况下显著
→
PDF
9 months ago
通过动态专家交换在资源受限的边缘设备上提供 MoE 模型服务
基于连续推理的资源受限混合专家模型 (PC-MoE) 能有效降低资源消耗和增加模型准确性。
PDF
10 months ago
ICML
门控 Dropout: 用于稀疏激活 Transformer 的通信高效正则化
本研究提出了一种名为 Gating Dropout 的方法,它可以减少深度学习模型的跨机器通讯成本,并在多语言机器翻译任务中验证了其有效性。
PDF
2 years ago
Prev
Next