DeepSeek-Coder-V2: 打破代码智能中闭源模型的限制
通过介绍 DeepSeek-Coder 系列,一种从头开始训练的开源代码模型,基于高质量项目级代码语料库进行预训练,利用填空任务和 16K 窗口提升代码生成和填充,在多个基准测试中展现出不仅在开源代码模型中达到最先进的性能,而且超越了诸如 Codex 和 GPT-3.5 等现有的闭源模型。此外,DeepSeek-Coder 模型采用宽松许可证,允许进行研究和无限制的商业应用。
Jan, 2024
DeepSeek-V2 是一种经济高效的 Mixture-of-Experts(MoE)语言模型,具有 236B 总参数,支持 128K tokens 的上下文长度。通过创新的架构,如 Multi-head Latent Attention(MLA)和 DeepSeekMoE,DeepSeek-V2 不仅在性能上大大超越 DeepSeek 67B,而且节省了 42.5% 的训练成本,将 KV 缓存减少了 93.3%,并将最大生成效率提升了 5.76 倍。
May, 2024
利用公开可获得的网络数据和 Group Relative Policy Optimization(GRPO)提高 DeepSeekMath 7B 的数学推理能力,使其在 MATH 基准上达到了 51.7% 的竞争水平,并接近了 Gemini-Ultra 和 GPT-4 的性能水平。
Feb, 2024
DeepSeek-VL 是一个开源的视觉 - 语言模型,设计用于实际的视觉和语言理解应用,通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。
Mar, 2024
通过研究扩展定律,我们发现了 DeepSeek LLM 在两种常用的开源配置下,7B 和 67B,用于扩展大规模模型的独特发现,并介绍了 DeepSeek LLM 项目的长期前景。通过创建包含 2 万亿标记的数据集并不断扩展,来支持预训练阶段。我们在 DeepSeek LLM 基础模型上进行有监督的微调和直接偏好优化,从而创建了 DeepSeek Chat 模型。评估结果表明,DeepSeek LLM 67B 在各种基准测试中均超过 LLaMA-2 70B,尤其在代码、数学和推理领域。此外,开放式评估显示 DeepSeek LLM 67B Chat 在性能上优于 GPT-3.5。
Jan, 2024
BigCode 项目介绍了 StarCoder2 模型,在训练数据上取得了较好的性能,在不同规模的 Code LLM 基准测试中均优于其他模型。
Feb, 2024
在大型语言模型的时代,混合专家模型 (MoE) 在扩大模型参数时管理计算成本方面具有潜力。然而,传统的 MoE 架构(如 GShard)在确保专家专业化方面面临挑战。因此,我们提出了 DeepSeekMoE 架构,旨在实现终极的专家专业化。
Jan, 2024
这篇论文介绍 BigCode 社区的开源科学协作计划,具体讨论了基于 GitHub 数据和 Fine-tuning 方法所训练的大规模语言模型 StarCoder 和 StarCoderBase,证明加强的 PII 去识别流程和追溯工具等重要措施可以更安全地发布模型,并公开发布符合开源 AI 模型许可证商业版本的 StarCoder 模型。
May, 2023
通过对现有大型模型 (包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot) 的系统评估,我们填补了目前缺少大量模型和数据设计决策信息的空白,并提出了一个基于 GPT-2 架构的新模型 (PolyCoder)。我们发现虽然 Codex 本身并不是开源的,但现有的开源模型在某些编程语言上取得了接近的结果,并且在 C 编程语言中,PolyCoder 模型优于所有模型包括 Codex。
Feb, 2022
本技术报告介绍了 BigCode 项目截至 2022 年 12 月的进展情况,包括当前状态的个人身份信息 (PII) 清理管道、减少模型架构风险的实验以及改进训练数据预处理方法的实验。我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数模型,并在 MultiPL-E 的文本到代码基准测试上进行了评估。我们发现,更激进地过滤近似重复的数据可以进一步提高性能,并令人惊讶的是,从具有超过 5 个 GitHub 星的代码库中选择文件实际上会明显降低性能。我们最好的模型在 MultiPL-E 的 Java、JavaScript 和 Python 部分的从左到右生成和插值中都优于以前的开源多语言代码生成模型 (InCoder-6.7B 和 CodeGen-Multi-2.7B),尽管它是一个相对较小的模型。所有模型均在 https://github.com/bigcode/BIGCODE 中以 OpenRAIL 许可证发布。
Jan, 2023