稳定代码技术报告

Apr, 2024

Stable Code Technical Report

Nikhil Pinnaparaju, Reshinth Adithyan, Duy Phung, Jonathan Tow, James Baicoianu...

TL;DR我们介绍了稳定代码（Stable Code），这是我们新一代的代码语言模型系列中的第一个模型，它用于完成代码补全、推理、数学和其他软件工程任务。此外，我们还引入了一种名为稳定代码指令（Stable Code Instruct）的指令变体，它允许与模型进行自然对话界面以进行问答和基于指令的任务。在这份技术报告中，我们详细介绍了这两个模型的数据和训练过程。他们的权重可通过 Hugging Face 在指定的 URL 下载和使用。该报告对这些模型进行了全面评估，包括多语言编程基准和多轮对话集中在机器翻译方面的基准。稳定代码在发布时是 3B 参数下的最先进的开放模型，甚至在流行的多语言编程基准上，其性能与大小为 70 亿和 150 亿参数的较大模型相当。稳定代码指令模型在 MT-Bench 编码任务和 Multi-PL 代码补全方面也展现了最先进的性能，相较于其他指令调整模型。由于其吸引人的小尺寸，我们还提供了该模型在一些边缘设备上的吞吐量测量。此外，我们还公开了几个量化检查点并提供了它们与原始模型的性能指标对比。

Abstract

We introduce stable code, the first in our new-generation of code language models series, which serves as a general-purpose base code language model targeting code completion, reasoning, math, and other software

stable code code language model instruction variant question-answering performance metrics

发现论文，激发创造

稳定的 LM 2 1.6B 技术报告

我们介绍了 StableLM 2 1.6B，这是我们语言模型系列的新一代产品。在本技术报告中，我们详细介绍了 StableLM 2 1.6B 的基础版本和指令调优版本的数据和训练过程。我们提供了这两个模型的权重供任何人下载和使用。本报告对这些模型进行了全面的评估，包括零点和少点基准，多语言基准以及以多轮对话为重点的机器翻译基准。在发布本报告时，StableLM 2 1.6B 是拥有显著优势的 2B 参数下最先进的开放模型。考虑到其吸引人的小尺寸，我们还提供了在若干边缘设备上的吞吐量测量。此外，我们还开源了几个量化的检查点，并提供了与原始模型相比的性能指标。

Feb, 2024

代码外壳技术报告

CodeShell-Base 是一个七十亿参数的基础模型，具有 8K 上下文长度，通过将 Grouped-Query Attention 和 Rotary Positional Embedding 整合到 GPT-2 中，它集成了 StarCoder 和 CodeLlama 的结构优点，并形成了独特的架构设计。经过综合的数据预处理过程，我们从 GitHub 中策划了 1000 亿条高质量的预训练数据。在仅训练 5000 亿个标记（5 个时期）之后，CodeShell-Base 在 Humaneval 上胜过了 CodeLlama，并在多个语言数据集上进行了广泛实验，包括 Python、Java 和 C++，结果显示我们的模型在代码理解和生成方面具有坚实的基础能力。

Mar, 2024

SantaCoder: 别急着去触摸星星！

本技术报告介绍了 BigCode 项目截至 2022 年 12 月的进展情况，包括当前状态的个人身份信息 (PII) 清理管道、减少模型架构风险的实验以及改进训练数据预处理方法的实验。我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数模型，并在 MultiPL-E 的文本到代码基准测试上进行了评估。我们发现，更激进地过滤近似重复的数据可以进一步提高性能，并令人惊讶的是，从具有超过 5 个 GitHub 星的代码库中选择文件实际上会明显降低性能。我们最好的模型在 MultiPL-E 的 Java、JavaScript 和 Python 部分的从左到右生成和插值中都优于以前的开源多语言代码生成模型 (InCoder-6.7B 和 CodeGen-Multi-2.7B)，尽管它是一个相对较小的模型。所有模型均在 https://github.com/bigcode/BIGCODE 中以 OpenRAIL 许可证发布。

Jan, 2023

StarCoder: 愿源码与你同在！

这篇论文介绍 BigCode 社区的开源科学协作计划，具体讨论了基于 GitHub 数据和 Fine-tuning 方法所训练的大规模语言模型 StarCoder 和 StarCoderBase，证明加强的 PII 去识别流程和追溯工具等重要措施可以更安全地发布模型，并公开发布符合开源 AI 模型许可证商业版本的 StarCoder 模型。

May, 2023

OctoPack：指令优化大型语言模型代码

通过对指令进行细调，利用代码进行指令调整，以提升大型语言模型（LLMs）在自然语言任务中的性能表现，并在 Git 提交中利用人类指令的自然结构进行指令调整，实现了在 16B 参数 StarCoder 模型上超过其他自然和合成代码指令（xP3x，自我指导，OASST）的最新性能，即在 HumanEval Python 基准测试中达到 46.2％的一次通过率。

Aug, 2023

StarCoder 2 与 The Stack v2：下一代

BigCode 项目介绍了 StarCoder2 模型，在训练数据上取得了较好的性能，在不同规模的 Code LLM 基准测试中均优于其他模型。

Feb, 2024

CodeT5+: 用于代码理解和生成的开源大型语言模型

提出了一种名为 CodeT5 + 的编译器 - 解码器语言模型，具有灵活的组件模块和多样化的预训练任务，能够在不同的代码相关基准测试中取得最先进的结果，特别是在针对人类评估的代码生成任务中。

May, 2023

CodeS：构建面向文本到 SQL 的开源语言模型

本研究介绍一种名为 CodeS 的开源语言模型，旨在解决 Text-to-SQL 任务中现有限制，并通过增量预训练、模式构建和双向数据增强等方法提升了 CodeS 在 SQL 生成能力上的表现，并在多个数据集上取得了新的最先进准确性和鲁棒性。

Feb, 2024

WizardCoder：用 Evol-Instruct 使大型语言模型掌握编程技能

本文介绍了 WizardCoder，它利用 Evol-Instruct 方法将复杂的指令微调应用于代码领域，通过对四个主要的代码生成基准进行全面实验，揭示了该模型的出色能力，并超越了所有其他开源 Code LLMs，甚至在 HumanEval 和 HumanEval + 上表现出秀。

Jun, 2023

InstructCoder：赋予语言模型在代码编辑中的能力

本研究使用大型语言模型（LLMs）和 InstructCoder 数据集，探索用户指令下的代码编辑，涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明，在 InstructCoder 数据集上对开源 LLMs 进行精细调整，能够大多数情况下正确地编辑代码，展现了前所未有的代码编辑性能水平。

Oct, 2023