Stack: 3 TB 开源许可的源代码

Nov, 2022

The Stack: 3 TB of permissively licensed source code

Denis Kocetkov, Raymond Li, Loubna Ben Allal, Jia Li, Chenghao Mou...

TL;DR本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack，以及如何构建、管理和使用该数据集来训练大型语言模型，通过在 Python 子集上训练 350M 参数解码器，在文本到代码的基准测试上取得了有前途的结果。

Abstract

large language models (LLMs) play an ever-increasing role in the field of artificial intelligence (AI)--not only for natural language processing but also for code understanding and generation. To stimulate open a

large language models artificial intelligence source code data governance text2code benchmarks

发现论文，激发创造

SantaCoder: 别急着去触摸星星！

本技术报告介绍了 BigCode 项目截至 2022 年 12 月的进展情况，包括当前状态的个人身份信息 (PII) 清理管道、减少模型架构风险的实验以及改进训练数据预处理方法的实验。我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数模型，并在 MultiPL-E 的文本到代码基准测试上进行了评估。我们发现，更激进地过滤近似重复的数据可以进一步提高性能，并令人惊讶的是，从具有超过 5 个 GitHub 星的代码库中选择文件实际上会明显降低性能。我们最好的模型在 MultiPL-E 的 Java、JavaScript 和 Python 部分的从左到右生成和插值中都优于以前的开源多语言代码生成模型 (InCoder-6.7B 和 CodeGen-Multi-2.7B)，尽管它是一个相对较小的模型。所有模型均在 https://github.com/bigcode/BIGCODE 中以 OpenRAIL 许可证发布。

Jan, 2023

StarCoder 2 与 The Stack v2：下一代

BigCode 项目介绍了 StarCoder2 模型，在训练数据上取得了较好的性能，在不同规模的 Code LLM 基准测试中均优于其他模型。

Feb, 2024

使用开源代码训练大型语言模型的（滥）用

本研究探讨使用未经授权的代码构建 LLMs 所带来的安全、隐私和版权问题，并提出了四条可行的建议。

Feb, 2023

大型语言模型训练数据集中的代码许可侵权初探

大语言模型的训练是否会侵犯代码许可证？是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢？通过 53 个训练于文件级代码的大语言模型的研究，我们发现每个数据集都存在许可证一致性问题。因此，我们建议研究人员和社区都应优先发展和采用最佳实践来创建和管理数据集。

Mar, 2024

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

CodeLL：支持数据和代码语言模型共同演进的终身学习数据集

本研究介绍了 CodeLL，这是一个用于代码更改的生命周期学习数据集，能够全面覆盖开源软件库的发布历史中的代码更改，同时可用于研究生命周期微调设置下 LMs 行为、软件库中数据分布的变化以及 API 用法随时间的演变。

Dec, 2023

Kotlin ML Pack: 技术报告

我们介绍了三个新的 Kotlin 代码数据集，KStack，KStack-clean 和 KExercises。我们描述了在这些数据上对 CodeLlama 和 DeepSeek 模型的微调结果。我们还展示了人工专家将 HumanEval 基准测试改写为 Kotlin 的版本，包括解决方案和测试。我们的结果表明，小而高质量的数据集（KStack-clean 和 KExercises）可以显着提高模型在代码生成任务上的性能，在 HumanEval 基准测试中通过率提高了最多 16 个百分点。最后，我们讨论了改进 Kotlin 语言建模的潜在未来工作，包括在学习过程中使用静态分析工具和引入更复杂、更实际的基准测试。

May, 2024

Vault：一个全面的多语言数据集，用于推进代码理解和生成

The Vault 是一个开源的、大规模的代码文本数据集，具备 10 种流行编程语言的 4000 万个代码文本对，经过清理和处理，可用于训练不同类型的基于代码的大型语言模型，并同时为研究者和实践者提供了数据清理方法和脚本以改善他们的数据集。

May, 2023

Pile: 一个包含多样文本的 800GB 语言建模数据集

本研究使用 825GB 的英文文本语料库，旨在训练大规模语言模型，通过 GPT-2 和 GPT-3 的预实验发现，这些模型在处理学术写作等特定组件上表现不佳，而在训练了语料库后在所有组件上都有了显著提高。同时，我们对数据进行了深入分析，提供代码用于其构建。

Dec, 2020

StarCoder: 愿源码与你同在！

这篇论文介绍 BigCode 社区的开源科学协作计划，具体讨论了基于 GitHub 数据和 Fine-tuning 方法所训练的大规模语言模型 StarCoder 和 StarCoderBase，证明加强的 PII 去识别流程和追溯工具等重要措施可以更安全地发布模型，并公开发布符合开源 AI 模型许可证商业版本的 StarCoder 模型。

May, 2023