Feb, 2024

DeepSeekMath:推动开放语言模型中数学推理的极限

TL;DR利用公开可获得的网络数据和 Group Relative Policy Optimization(GRPO)提高 DeepSeekMath 7B 的数学推理能力,使其在 MATH 基准上达到了 51.7% 的竞争水平,并接近了 Gemini-Ultra 和 GPT-4 的性能水平。