Jun, 2024

上下文专家混合增强 LLM 长上下文意识

TL;DR本文提出了一种名为 “MoICE” 的新方法,通过在每个注意力头中引入路由器作为关键部件以及仅更新路由器进行训练的策略,来提高使用 RoPE 作为位置嵌入的 LLMs 的上下文感知能力和效率。在应用于 Llama 和 Mistral 等开源 LLMs 时,MoICE 在长上下文理解和生成的多个任务上超越了先前的方法,并保持了可观的推理效率。