BriefGPT.xyz
Ask
alpha
关键词
expert mixing during inference
搜索结果 - 1
DEMix Layers: 模块化语言建模中的领域解耦
该研究介绍了一种新的域专家混合层 (DEMix),能够使语言模型 (LM) 与输入文本的领域相适应。DEMix 层是由专家前馈网络组成的集合,每个专家网络专门处理一个领域,使得 LM 模块化:专家可以在初始训练后混合、添加或删除。该模型在自
→
PDF
3 years ago
Prev
Next