May, 2024

DeepSeek-V2: 一种强大、经济高效的专家混合语言模型

TL;DRDeepSeek-V2 是一种经济高效的 Mixture-of-Experts(MoE)语言模型,具有 236B 总参数,支持 128K tokens 的上下文长度。通过创新的架构,如 Multi-head Latent Attention(MLA)和 DeepSeekMoE,DeepSeek-V2 不仅在性能上大大超越 DeepSeek 67B,而且节省了 42.5% 的训练成本,将 KV 缓存减少了 93.3%,并将最大生成效率提升了 5.76 倍。