DeepSeek-V2: 一种强大、经济高效的专家混合语言模型

May, 2024

DeepSeek-V2: 一种强大、经济高效的专家混合语言模型

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-AI

TL;DRDeepSeek-V2 是一种经济高效的 Mixture-of-Experts（MoE）语言模型，具有 236B 总参数，支持 128K tokens 的上下文长度。通过创新的架构，如 Multi-head Latent Attention（MLA）和 DeepSeekMoE，DeepSeek-V2 不仅在性能上大大超越 DeepSeek 67B，而且节省了 42.5% 的训练成本，将 KV 缓存减少了 93.3%，并将最大生成效率提升了 5.76 倍。

Abstract

We present deepseek-v2, a strong mixture-of-experts (MoE) language model characterized by economical training and efficient inference. It

deepseek-v2 mixture-of-experts language model training costs inference efficiency

发现论文，激发创造

DeepSeek-Coder-V2: 打破代码智能中闭源模型的限制

通过深度预训练，DeepSeek-Coder-V2 在编码相关任务方面展示出了显著的先进性，并提高了其推理和总体能力

Jun, 2024

DeepSeekMoE: 迈向极致专业化的混合专家语言模型

在大型语言模型的时代，混合专家模型 (MoE) 在扩大模型参数时管理计算成本方面具有潜力。然而，传统的 MoE 架构（如 GShard）在确保专家专业化方面面临挑战。因此，我们提出了 DeepSeekMoE 架构，旨在实现终极的专家专业化。

Jan, 2024

DeepSeek-VL: 实现真实世界的视觉 - 语言理解

DeepSeek-VL 是一个开源的视觉 - 语言模型，设计用于实际的视觉和语言理解应用，通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。

Mar, 2024

DeepSeek LLM: 以长期主义为基础扩展开源语言模型

通过研究扩展定律，我们发现了 DeepSeek LLM 在两种常用的开源配置下，7B 和 67B，用于扩展大规模模型的独特发现，并介绍了 DeepSeek LLM 项目的长期前景。通过创建包含 2 万亿标记的数据集并不断扩展，来支持预训练阶段。我们在 DeepSeek LLM 基础模型上进行有监督的微调和直接偏好优化，从而创建了 DeepSeek Chat 模型。评估结果表明，DeepSeek LLM 67B 在各种基准测试中均超过 LLaMA-2 70B，尤其在代码、数学和推理领域。此外，开放式评估显示 DeepSeek LLM 67B Chat 在性能上优于 GPT-3.5。

Jan, 2024

DeepSeek-Coder：大型语言模型与编程的结合 -- 代码智能的崛起

通过介绍 DeepSeek-Coder 系列，一种从头开始训练的开源代码模型，基于高质量项目级代码语料库进行预训练，利用填空任务和 16K 窗口提升代码生成和填充，在多个基准测试中展现出不仅在开源代码模型中达到最先进的性能，而且超越了诸如 Codex 和 GPT-3.5 等现有的闭源模型。此外，DeepSeek-Coder 模型采用宽松许可证，允许进行研究和无限制的商业应用。

Jan, 2024

DeepSeekMath：推动开放语言模型中数学推理的极限

利用公开可获得的网络数据和 Group Relative Policy Optimization（GRPO）提高 DeepSeekMath 7B 的数学推理能力，使其在 MATH 基准上达到了 51.7% 的竞争水平，并接近了 Gemini-Ultra 和 GPT-4 的性能水平。

Feb, 2024

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

DeepSpeed-MoE: 推动混合专家推理和训练以推动下一代 AI 规模

本文介绍了一种通过 Mixture-of-Experts 模型架构实现的深度学习模型训练及推断方案，名为 DeepSpeed-MoE。该方案通过新颖的模型压缩技术和高度优化的推断系统，在减小模型尺寸、提高能效和降低硬件资源要求等方面都有着非常显著的表现。希望通过 Sparse MoE Models 的训练和部署，开辟更多高质量模型的新方向，减少硬件资源的需求，加速模型的落地应用。

Jan, 2022