DeepSeekMath：推动开放语言模型中数学推理的极限

Feb, 2024

DeepSeekMath：推动开放语言模型中数学推理的极限

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song...

TL;DR利用公开可获得的网络数据和 Group Relative Policy Optimization（GRPO）提高 DeepSeekMath 7B 的数学推理能力，使其在 MATH 基准上达到了 51.7% 的竞争水平，并接近了 Gemini-Ultra 和 GPT-4 的性能水平。

Abstract

mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together wit

mathematical reasoning deepseekmath 7b math benchmark gemini-ultra gpt-4

发现论文，激发创造

DeepSeek-Coder-V2: 打破代码智能中闭源模型的限制

通过深度预训练，DeepSeek-Coder-V2 在编码相关任务方面展示出了显著的先进性，并提高了其推理和总体能力

Jun, 2024

DeepSeek-Prover: 通过大规模合成数据推进 LLMs 中的定理证明

基于大规模合成数据，使用 Lean 4 proof 数据生成方法，我们的模型在定理生成和解决题目方面取得了卓越的成果，证明了合成数据对提高 LLMs 中的定理证明能力的潜力。

May, 2024

DeepSeek-Coder：大型语言模型与编程的结合 -- 代码智能的崛起

通过介绍 DeepSeek-Coder 系列，一种从头开始训练的开源代码模型，基于高质量项目级代码语料库进行预训练，利用填空任务和 16K 窗口提升代码生成和填充，在多个基准测试中展现出不仅在开源代码模型中达到最先进的性能，而且超越了诸如 Codex 和 GPT-3.5 等现有的闭源模型。此外，DeepSeek-Coder 模型采用宽松许可证，允许进行研究和无限制的商业应用。

Jan, 2024

DeepSeek-V2: 一种强大、经济高效的专家混合语言模型

DeepSeek-V2 是一种经济高效的 Mixture-of-Experts（MoE）语言模型，具有 236B 总参数，支持 128K tokens 的上下文长度。通过创新的架构，如 Multi-head Latent Attention（MLA）和 DeepSeekMoE，DeepSeek-V2 不仅在性能上大大超越 DeepSeek 67B，而且节省了 42.5% 的训练成本，将 KV 缓存减少了 93.3%，并将最大生成效率提升了 5.76 倍。

May, 2024

MARIO：用代码解释器输出进行数学推理的再现性管道

大型语言模型在自然语言理解任务中取得了显著的进展，但要实现真正的人工智能通用智能还存在差距，特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集，该数据集具有使用 Python 代码解释器的能力，解决了这一挑战。此外，我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议，在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域，并且我们已经公开了模型检查点并将数据集公开可用，希望这将促进社区内的进一步研究和发展。

Jan, 2024

元数学：为大型语言模型建立自己的数学问题

我们提出了一个名为 MetaMath 的精细调整的语言模型，专注于数学推理，实验证明 MetaMath 在数学推理方面表现优于开源语言模型。

Sep, 2023

InternLM-Math: 面向可验证推理的开放数学大语言模型

我们介绍并开源了我们的数学推理 LLMs InternLM-Math，它是从 InternLM2 继续预训练的，将序列到序列格式中的思维链推理、奖励建模、形式推理、数据增强和代码解释器统一起来，监督我们的模型成为一个多功能的数学推理者、验证者、证明者和扩充器。我们的预训练模型在各种非正式和正式基准测试中，包括 GSM8K、MATH、匈牙利数学考试、MathBench-ZH 和 MiniF2F，在即时学习、监督微调和代码辅助推理的环境设置下，取得了最先进的性能，MiniF2F 测试集上实现了 30.3 的成绩。我们进一步探索了如何使用 LEAN 解决数学问题，并研究了在多任务学习的环境设置下的性能，这表明了使用 LEAN 作为数学问题求解和证明的统一平台的可能性。我们的模型、代码和数据已在 https://github.com/InternLM/InternLM-Math 上发布。

Feb, 2024

DeepSeek LLM: 以长期主义为基础扩展开源语言模型

通过研究扩展定律，我们发现了 DeepSeek LLM 在两种常用的开源配置下，7B 和 67B，用于扩展大规模模型的独特发现，并介绍了 DeepSeek LLM 项目的长期前景。通过创建包含 2 万亿标记的数据集并不断扩展，来支持预训练阶段。我们在 DeepSeek LLM 基础模型上进行有监督的微调和直接偏好优化，从而创建了 DeepSeek Chat 模型。评估结果表明，DeepSeek LLM 67B 在各种基准测试中均超过 LLaMA-2 70B，尤其在代码、数学和推理领域。此外，开放式评估显示 DeepSeek LLM 67B Chat 在性能上优于 GPT-3.5。

Jan, 2024

MathCoder：深化数学推理的 LLMs 中无缝代码集成

我们提出了一种方法，通过对开源语言模型进行微调，使其能够使用代码进行建模，并推导出数学方程，从而增强其数学推理能力。我们介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法，称为 MathCodeInstruct。我们还引入了一种定制的有监督微调和推理方法。这种方法产生了 MathCoder 模型，一组能够生成基于代码的解决方案来解决具有挑战性的数学问题的模型。令人印象深刻的是，MathCoder 模型在 MATH（45.2％）和 GSM8K（83.9％）数据集上取得了开源语言模型的最新得分，远远超过其他开源方案。值得注意的是，MathCoder 模型不仅在 GSM8K 和 MATH 上超过了 ChatGPT-3.5 和 PaLM-2，还超过了 GPT-4 在竞争级别的 MATH 数据集上。数据集和模型将在此 URL 发布。

Oct, 2023

OpenWebMath：一个高质量数学网页文本开放数据集

通过基于大规模数学文档的预训练，提高大型语言模型的推理能力并引入一个开放的数学网页数据集，从而促进大型语言模型的推理能力的进展。

Oct, 2023