Jan, 2024

DeepSeek LLM: 以长期主义为基础扩展开源语言模型

TL;DR通过研究扩展定律,我们发现了 DeepSeek LLM 在两种常用的开源配置下,7B 和 67B,用于扩展大规模模型的独特发现,并介绍了 DeepSeek LLM 项目的长期前景。通过创建包含 2 万亿标记的数据集并不断扩展,来支持预训练阶段。我们在 DeepSeek LLM 基础模型上进行有监督的微调和直接偏好优化,从而创建了 DeepSeek Chat 模型。评估结果表明,DeepSeek LLM 67B 在各种基准测试中均超过 LLaMA-2 70B,尤其在代码、数学和推理领域。此外,开放式评估显示 DeepSeek LLM 67B Chat 在性能上优于 GPT-3.5。