CodeLL：支持数据和代码语言模型共同演进的终身学习数据集

Dec, 2023

CodeLL：支持数据和代码语言模型共同演进的终身学习数据集

CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code

Martin Weyssow, Claudio Di Sipio, Davide Di Ruscio, Houari Sahraoui

TL;DR本研究介绍了 CodeLL，这是一个用于代码更改的生命周期学习数据集，能够全面覆盖开源软件库的发布历史中的代码更改，同时可用于研究生命周期微调设置下 LMs 行为、软件库中数据分布的变化以及 API 用法随时间的演变。

Abstract

Motivated by recent work on lifelong learning applications for language models (LMs) of code, we introduce CodeLL, a lifelong learning dataset

lifelong learning code changes dataset open-source software repositories api usages

发现论文，激发创造

InstructCoder：赋予语言模型在代码编辑中的能力

本研究使用大型语言模型（LLMs）和 InstructCoder 数据集，探索用户指令下的代码编辑，涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明，在 InstructCoder 数据集上对开源 LLMs 进行精细调整，能够大多数情况下正确地编辑代码，展现了前所未有的代码编辑性能水平。

Oct, 2023

基于大型语言模型的多语言代码协同演化

使用大语言模型（LLMs），将代码更改从一种编程语言翻译成另一种编程语言，通过设计和实现名为 Codeditor 的第一个 LLM，我们发现它在所有常用的自动指标上都大幅超越了现有的方法，并且与现有的生成模型配合使用可以获得更好的性能。

Jul, 2023

Stack: 3 TB 开源许可的源代码

本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack，以及如何构建、管理和使用该数据集来训练大型语言模型，通过在 Python 子集上训练 350M 参数解码器，在文本到代码的基准测试上取得了有前途的结果。

Nov, 2022

VersiCode: 面向可版本控制代码生成功能

本研究通过引入 VersiCode 数据集和两个专门的评估任务 (VSCC 和 VACE)，对大型语言模型在生成特定库版本可验证代码方面的能力进行综合实验和性能评估，揭示了即使是最先进的大型语言模型在生成版本正确代码方面也存在困难，为进一步研究这一重要领域的能力和限制提供新的视角和资源。

Jun, 2024

使用开源代码训练大型语言模型的（滥）用

本研究探讨使用未经授权的代码构建 LLMs 所带来的安全、隐私和版权问题，并提出了四条可行的建议。

Feb, 2023

CodeNet：用于学习多样编码任务的大规模 AI 代码数据集

本文介绍了一个名为 CodeNet 的大规模数据集，旨在教授 AI 编码技能以提高软件开发效率并现代化旧有应用程序，该数据集包含超过 14 百万个代码样例和约 55 种不同编程语言中的 5 亿行代码。同时，CodeNet 还为各种关键编码任务提供了丰富的高质量注释，包括各类代码相似性和分类、各种编程语言之间的代码翻译以及代码性能（运行时间和内存）改进技术等，为 AI 和软件工程交叉领域提供了前所未有的研究机会。

May, 2021

Vault：一个全面的多语言数据集，用于推进代码理解和生成

The Vault 是一个开源的、大规模的代码文本数据集，具备 10 种流行编程语言的 4000 万个代码文本对，经过清理和处理，可用于训练不同类型的基于代码的大型语言模型，并同时为研究者和实践者提供了数据清理方法和脚本以改善他们的数据集。

May, 2023

SelfEvolve：基于大语言模型的代码进化框架

提出了一种名为 AutoKnow 的新型两步流程，将 LLMs 作为知识提供者和自我反思程序员，通过从输入提示中获得知识并根据生成的知识生成中间代码，并存在解释器中接收错误消息，从而使 LLMs 成为专业编程人员，从而成功完成编程，有效提高了二者的表现。

Jun, 2023

XLCoST：面向跨语言代码智能的基准数据集

本文介绍 XLCoST 横跨 8 种语言的跨语言代码片段数据集，支持 10 项跨语言代码任务，并提供了几种基准模型的性能。该数据集是目前规模和语种最大的源代码平行数据集，可以帮助跨语言代码智能的研究和方法开发以及验证。

Jun, 2022

CodeUltraFeedback: 一个用于将大型语言模型与编码偏好对齐的 LLM 作为裁判数据集

通过自动化指标和静态分析工具评估大型语言模型与用户定义的编码偏好之间的对齐是一项具有挑战性的任务。本文介绍了 CodeUltraFeedback，这是一个包含 10,000 个复杂指令的偏好数据集，通过 AI 反馈调整和对齐语言模型与编码偏好。我们通过 14 个不同的语言模型对指令生成响应，并使用 LLM 作为评判器的方法对其对齐性进行了标注。我们还提出了 CODAL-Bench，用于评估语言模型与编码偏好对齐的基准。结果表明，通过使用 CodeUltraFeedback 的 AI 反馈数据，采用增强学习和直接优化编码偏好的方法，CodeLlama-7B-Instruct 在 CODAL-Bench 上优于 34B 模型，验证了 CodeUltraFeedback 在偏好调整方面的实用性。此外，我们还展示了经过优化的 CodeLlama 模型相比于未对齐的基础模型在 HumanEval + 上的功能正确性有所改进。因此，我们的贡献弥合了语言模型对编码偏好的调整差距，并为模型对齐和代码智能的进一步发展奠定了基础。

Mar, 2024