Jan, 2024

专家混合模型

TL;DR引入了 Mixtral 8x7B,一种稀疏的专家混合(SMoE)语言模型,采用了与 Mistral 7B 相同的架构,每个层由 8 个前馈块(即专家)组成,并通过路由网络选择两个专家处理当前状态和组合它们的输出,最终得到使用 13B 活跃参数的 47B 参数模型,在数学、代码生成和多语言基准测试中表现优秀,并提供了针对指令的精调模型 Mixtral 8x7B - Instruct,在人类基准测试中超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - chat model。