BriefGPT.xyz
Ask
alpha
关键词
router-only training
搜索结果 - 1
上下文专家混合增强 LLM 长上下文意识
本文提出了一种名为 “MoICE” 的新方法,通过在每个注意力头中引入路由器作为关键部件以及仅更新路由器进行训练的策略,来提高使用 RoPE 作为位置嵌入的 LLMs 的上下文感知能力和效率。在应用于 Llama 和 Mistral 等开源
→
PDF
8 days ago
Prev
Next