StarCoder: 愿源码与你同在！

May, 2023

StarCoder: may the source be with you!

Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov...

TL;DR这篇论文介绍 BigCode 社区的开源科学协作计划，具体讨论了基于 GitHub 数据和 Fine-tuning 方法所训练的大规模语言模型 StarCoder 和 StarCoderBase，证明加强的 PII 去识别流程和追溯工具等重要措施可以更安全地发布模型，并公开发布符合开源 AI 模型许可证商业版本的 StarCoder 模型。

Abstract

The bigcode community, an open-scientific collaboration working on the responsible development of large language models for Code (code llms

bigcode community large language models starcoder code llms python

发现论文，激发创造

StarCoder 2 与 The Stack v2：下一代

BigCode 项目介绍了 StarCoder2 模型，在训练数据上取得了较好的性能，在不同规模的 Code LLM 基准测试中均优于其他模型。

Feb, 2024

SantaCoder: 别急着去触摸星星！

本技术报告介绍了 BigCode 项目截至 2022 年 12 月的进展情况，包括当前状态的个人身份信息 (PII) 清理管道、减少模型架构风险的实验以及改进训练数据预处理方法的实验。我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数模型，并在 MultiPL-E 的文本到代码基准测试上进行了评估。我们发现，更激进地过滤近似重复的数据可以进一步提高性能，并令人惊讶的是，从具有超过 5 个 GitHub 星的代码库中选择文件实际上会明显降低性能。我们最好的模型在 MultiPL-E 的 Java、JavaScript 和 Python 部分的从左到右生成和插值中都优于以前的开源多语言代码生成模型 (InCoder-6.7B 和 CodeGen-Multi-2.7B)，尽管它是一个相对较小的模型。所有模型均在 https://github.com/bigcode/BIGCODE 中以 OpenRAIL 许可证发布。

Jan, 2023

WizardCoder：用 Evol-Instruct 使大型语言模型掌握编程技能

本文介绍了 WizardCoder，它利用 Evol-Instruct 方法将复杂的指令微调应用于代码领域，通过对四个主要的代码生成基准进行全面实验，揭示了该模型的出色能力，并超越了所有其他开源 Code LLMs，甚至在 HumanEval 和 HumanEval + 上表现出秀。

Jun, 2023

代码外壳技术报告

CodeShell-Base 是一个七十亿参数的基础模型，具有 8K 上下文长度，通过将 Grouped-Query Attention 和 Rotary Positional Embedding 整合到 GPT-2 中，它集成了 StarCoder 和 CodeLlama 的结构优点，并形成了独特的架构设计。经过综合的数据预处理过程，我们从 GitHub 中策划了 1000 亿条高质量的预训练数据。在仅训练 5000 亿个标记（5 个时期）之后，CodeShell-Base 在 Humaneval 上胜过了 CodeLlama，并在多个语言数据集上进行了广泛实验，包括 Python、Java 和 C++，结果显示我们的模型在代码理解和生成方面具有坚实的基础能力。

Mar, 2024

DeepSeek-Coder：大型语言模型与编程的结合 -- 代码智能的崛起

通过介绍 DeepSeek-Coder 系列，一种从头开始训练的开源代码模型，基于高质量项目级代码语料库进行预训练，利用填空任务和 16K 窗口提升代码生成和填充，在多个基准测试中展现出不仅在开源代码模型中达到最先进的性能，而且超越了诸如 Codex 和 GPT-3.5 等现有的闭源模型。此外，DeepSeek-Coder 模型采用宽松许可证，允许进行研究和无限制的商业应用。

Jan, 2024

SteloCoder: 多语言到 Python 代码的仅解码 LLM 翻译

SteloCoder 是基于 StarCoder 的解码器的大语言模型，通过混合专家技术和多任务处理，在多编程语言之间实现高效的代码转换，拥有与 StarCoder 相同的骨干结构，仅增加了 4500 万个额外参数和 32 小时的有效训练时间，并在多编程语言到 Python 的翻译中取得了显著的性能提升。

Oct, 2023

代码的大型语言模型的系统评估

通过对现有大型模型 (包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot) 的系统评估，我们填补了目前缺少大量模型和数据设计决策信息的空白，并提出了一个基于 GPT-2 架构的新模型 (PolyCoder)。我们发现虽然 Codex 本身并不是开源的，但现有的开源模型在某些编程语言上取得了接近的结果，并且在 C 编程语言中，PolyCoder 模型优于所有模型包括 Codex。

Feb, 2022

代码巨基：面向代码的开放基础模型

发布了 Code Llama，这是一套基于 Llama 2 的大型代码语言模型，在开源模型中具有最先进的性能、填充能力、大尺寸输入上下文支持以及无人操作编程任务的指令跟随能力。

Aug, 2023

CodeS：构建面向文本到 SQL 的开源语言模型

本研究介绍一种名为 CodeS 的开源语言模型，旨在解决 Text-to-SQL 任务中现有限制，并通过增量预训练、模式构建和双向数据增强等方法提升了 CodeS 在 SQL 生成能力上的表现，并在多个数据集上取得了新的最先进准确性和鲁棒性。

Feb, 2024

Magicoder：只需源代码

Magicoder 是一系列全面开源（代码、权重和数据）的大型语言模型（LLMs），通过使用 OSS-Instruct 来提供更多样化、更真实和可控的数据，从而消除了合成数据的固有偏见，显著缩小了与顶级代码模型的差距。

Dec, 2023