Qwen2.5-Coder技术报告
提出了一种名为CodeT5+的编译器-解码器语言模型,具有灵活的组件模块和多样化的预训练任务,能够在不同的代码相关基准测试中取得最先进的结果,特别是在针对人类评估的代码生成任务中。
May, 2023
发布了Code Llama,这是一套基于Llama 2的大型代码语言模型,在开源模型中具有最先进的性能、填充能力、大尺寸输入上下文支持以及无人操作编程任务的指令跟随能力。
Aug, 2023
Qwen是我们大型语言模型系列的第一款综合语言模型,包括基础预训练语言模型Qwen和使用人类对齐技术微调的聊天模型Qwen-Chat,前者在多个下游任务中展现了出色的性能,而后者在复杂任务上表现出令人印象深刻的性能,甚至与更大的模型相比都具有先进的工具使用和计划能力。
Sep, 2023
本文提出了一个面向代码的综合、无污染评估系统LiveCodeBench,其中收集了来自LeetCode、AtCoder和CodeForces三个竞赛平台的问题,着重评估LLMs在代码生成以外的自修复、代码执行和测试输出预测等更广泛的代码相关能力。
Mar, 2024
CodeShell-Base是一个七十亿参数的基础模型,具有8K上下文长度,通过将Grouped-Query Attention和Rotary Positional Embedding整合到GPT-2中,它集成了StarCoder和CodeLlama的结构优点,并形成了独特的架构设计。经过综合的数据预处理过程,我们从GitHub中策划了1000亿条高质量的预训练数据。在仅训练5000亿个标记(5个时期)之后,CodeShell-Base在Humaneval上胜过了CodeLlama,并在多个语言数据集上进行了广泛实验,包括Python、Java和C++,结果显示我们的模型在代码理解和生成方面具有坚实的基础能力。
Mar, 2024
自动代码生成,面向真实世界任务的AICoderEval数据集评估了大型语言模型的任务特定代码生成能力,并提出了基于代理机制的框架CoderGen,通过增强模型和构建AICoderEval提高了LLMs的任务特定代码生成能力,AICoder在效果上表现优于现有的代码生成LLMs,证实AICoderEval基准的质量。
Jun, 2024
Qwen2-Audio是一个大规模音频语言模型,它能够接收各种音频信号输入,并根据语音指令进行音频分析或直接文本回复。它具有较强的指令跟随能力,实现了语音聊天和音频分析两种交互模式,优化了模型的性能,目的是促进多模态语言研究的发展。
Jul, 2024
本研究解决了提高代码指令调优数据质量的问题,尤其是识别哪些数据集真正符合高质量标准。我们提出了一种高效的数据修剪策略,并基于此开发了XCoder模型,展示了其在较少训练数据下实现了新的最先进性能。该研究为未来代码大模型的构建提供了新的洞见。
Sep, 2024
本研究针对数学领域的语言模型存在的数据不足问题,提出了一种创新的自我改进方法,涵盖训练前、训练后和推理阶段。研究发现,采用强化学习的最终奖励模型显著提高了模型的数学推理能力,能够有效处理多种难度的数学问题,推动数学教育与研究的进步。
Sep, 2024