Qwen2.5-Coder技术报告

Sep, 2024

Qwen2.5-Coder Technical Report

Binyuan Hui, Jian Yang, Zeyu Cui, Jiaxi Yang, Dayiheng Liu...

TL;DR本报告介绍了Qwen2.5-Coder系列，它是CodeQwen1.5的重要升级，解决了代码生成模型性能的不足。Qwen2.5-Coder通过精细的数据清理和合成数据生成，展现了卓越的代码生成能力，并在10多个基准测试中超越同类更大模型。研究结果有望推动代码智能研究的前沿，并促进开发者在现实应用中的广泛使用。

Abstract

In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data

发现论文，激发创造

CodeT5+: 用于代码理解和生成的开源大型语言模型

提出了一种名为CodeT5+的编译器-解码器语言模型，具有灵活的组件模块和多样化的预训练任务，能够在不同的代码相关基准测试中取得最先进的结果，特别是在针对人类评估的代码生成任务中。

May, 2023

代码巨基：面向代码的开放基础模型

发布了Code Llama，这是一套基于Llama 2的大型代码语言模型，在开源模型中具有最先进的性能、填充能力、大尺寸输入上下文支持以及无人操作编程任务的指令跟随能力。

Aug, 2023

Qwen技术报告

Qwen是我们大型语言模型系列的第一款综合语言模型，包括基础预训练语言模型Qwen和使用人类对齐技术微调的聊天模型Qwen-Chat，前者在多个下游任务中展现了出色的性能，而后者在复杂任务上表现出令人印象深刻的性能，甚至与更大的模型相比都具有先进的工具使用和计划能力。

Sep, 2023

LiveCodeBench：大规模语言模型对代码进行全面无污染评估

本文提出了一个面向代码的综合、无污染评估系统LiveCodeBench，其中收集了来自LeetCode、AtCoder和CodeForces三个竞赛平台的问题，着重评估LLMs在代码生成以外的自修复、代码执行和测试输出预测等更广泛的代码相关能力。

Mar, 2024

代码外壳技术报告

CodeShell-Base是一个七十亿参数的基础模型，具有8K上下文长度，通过将Grouped-Query Attention和Rotary Positional Embedding整合到GPT-2中，它集成了StarCoder和CodeLlama的结构优点，并形成了独特的架构设计。经过综合的数据预处理过程，我们从GitHub中策划了1000亿条高质量的预训练数据。在仅训练5000亿个标记（5个时期）之后，CodeShell-Base在Humaneval上胜过了CodeLlama，并在多个语言数据集上进行了广泛实验，包括Python、Java和C++，结果显示我们的模型在代码理解和生成方面具有坚实的基础能力。

Mar, 2024

AICoderEval: 大型语言模型的AI领域代码生成改进

自动代码生成，面向真实世界任务的AICoderEval数据集评估了大型语言模型的任务特定代码生成能力，并提出了基于代理机制的框架CoderGen，通过增强模型和构建AICoderEval提高了LLMs的任务特定代码生成能力，AICoder在效果上表现优于现有的代码生成LLMs，证实AICoderEval基准的质量。

Jun, 2024

Qwen2技术报告

Qwen2系列是我们最新的大语言模型和大多模态模型，它超越了先前的开源模型，展现出在语言理解、生成、多语言能力、编码、数学和推理等各种领域的竞争性表现。

Jul, 2024

Qwen2-Audio 技术报告

Qwen2-Audio是一个大规模音频语言模型，它能够接收各种音频信号输入，并根据语音指令进行音频分析或直接文本回复。它具有较强的指令跟随能力，实现了语音聊天和音频分析两种交互模式，优化了模型的性能，目的是促进多模态语言研究的发展。

Jul, 2024

您的代码大模型表现如何？通过高质量数据赋能代码指令调优

本研究解决了提高代码指令调优数据质量的问题，尤其是识别哪些数据集真正符合高质量标准。我们提出了一种高效的数据修剪策略，并基于此开发了XCoder模型，展示了其在较少训练数据下实现了新的最先进性能。该研究为未来代码大模型的构建提供了新的洞见。

Sep, 2024

Qwen2.5-Math技术报告：通过自我改进迈向数学专家模型

本研究针对数学领域的语言模型存在的数据不足问题，提出了一种创新的自我改进方法，涵盖训练前、训练后和推理阶段。研究发现，采用强化学习的最终奖励模型显著提高了模型的数学推理能力，能够有效处理多种难度的数学问题，推动数学教育与研究的进步。

Sep, 2024