BriefGPT.xyz
Ask
alpha
关键词
world knowledge forgetting
搜索结果 - 1
平衡之艺:革新专家混合以保持语言模型对世界知识的对齐
LoRAMoE 是一种基于插件形式的专家混合模型,通过冻结骨干模型在训练阶段保证了模型中存储的世界知识的完整性;利用局部平衡约束来均衡任务利用,同时有效发挥其他专家对模型中存储的世界知识的作用。实验证明,LoRAMoE 能在推理过程中合理协
→
PDF
7 months ago
Prev
Next