AutoCoder：使用 AIEV-Instruct 增强代码大型语言模型

May, 2024

AutoCoder：使用 AIEV-Instruct 增强代码大型语言模型

AutoCoder: Enhancing Code Large Language Model with \textsc{AIEV-Instruct}

Bin Lei, Yuchen Li, Qiuwu Chen

TL;DRAutoCoder 是第一个在 Human Eval 基准测试的 pass@1 上超过 GPT-4 Turbo（2024 年 4 月）和 GPT-4o 的大型语言模型（90.9% 对 90.2%）。此外，与 GPT-4 Turbo 和 GPT-4o 相比，AutoCoder 提供了更多功能的代码解释器，其解释器可以安装外部包而不仅限于内置包。AutoCoder 的训练数据是通过将代理交互和外部代码执行验证相结合的系统创建的多轮对话数据集，我们称之为 AIEV-Instruct。与以前的大规模代码数据集生成方法相比，AIEV-Instruct 减少对专有大模型的依赖，并提供经过执行验证的代码数据集。

Abstract

We introduce autocoder, the first large language model to surpass gpt-4 turbo (April 2024) and GPT-4o in pass@1 on the Human Eval benchmar

autocoder large language model gpt-4 turbo code interpreter aiev-instruct

发现论文，激发创造

WizardCoder：用 Evol-Instruct 使大型语言模型掌握编程技能

本文介绍了 WizardCoder，它利用 Evol-Instruct 方法将复杂的指令微调应用于代码领域，通过对四个主要的代码生成基准进行全面实验，揭示了该模型的出色能力，并超越了所有其他开源 Code LLMs，甚至在 HumanEval 和 HumanEval + 上表现出秀。

Jun, 2023

AI 辅助编码：GPT-4 实验

本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Apr, 2023

InstructCoder：赋予语言模型在代码编辑中的能力

本研究使用大型语言模型（LLMs）和 InstructCoder 数据集，探索用户指令下的代码编辑，涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明，在 InstructCoder 数据集上对开源 LLMs 进行精细调整，能够大多数情况下正确地编辑代码，展现了前所未有的代码编辑性能水平。

Oct, 2023

大型语言模型的自动指令演化

Auto Evol-Instruct 是一个自动分析和总结适合给定指令数据的进化策略，并通过改进指令进化过程中暴露的问题，迭代提高进化方法的端到端框架。通过广泛的实验证明，Auto Evol-Instruct 优化的最佳方法在 MT-Bench，AlpacaEval，GSM8K 和 HumanEval 等各种基准测试中优于人工设计的方法。

Jun, 2024

AICoderEval: 大型语言模型的 AI 领域代码生成改进

自动代码生成，面向真实世界任务的 AICoderEval 数据集评估了大型语言模型的任务特定代码生成能力，并提出了基于代理机制的框架 CoderGen，通过增强模型和构建 AICoderEval 提高了 LLMs 的任务特定代码生成能力，AICoder 在效果上表现优于现有的代码生成 LLMs，证实 AICoderEval 基准的质量。

Jun, 2024

使用 GPT-4 代码解释器及基于代码的自验证解决复杂数学问题

通过对 GPT-4 Code Interpreter 的代码使用频率引入不同约束，本文探讨了代码在增强 LLMs 推理能力方面的效果。基于这种见解，我们提出了一种新颖有效的提示方法，即基于代码的自验证（CSV），进一步提升了 GPT-4 Code Interpreter 的数学推理潜力。使用 GPT-4 Code Interpreter 和 CSV，我们在 MATH 数据集上实现了令人印象深刻的无需训练准确率（53.9％ → 84.3％）。

Aug, 2023

自动生成和排序黑盒语言模型的自动指导

LLMs 可以通过遵循自然语言指令来完成各种任务，但是指令的质量会对 LLMs 的性能产生极大影响。本文提出了 Auto-Instruct 方法，通过生成多样化的候选指令并使用基于训练过的 575 个 NLP 任务的评分模型进行排序，自动提高 LLMs 的指令质量。在 118 个领域外任务的实验证明，Auto-Instruct 超越了人工编写的指令和现有 LLM 生成的指令的基线。此外，我们的方法还具有显著的泛化能力，即使对于没有被纳入其训练过程的其他 LLMs 也同样有效。

Oct, 2023

CodeGeeX: 一个基于预训练的多语言代码生成模型及其在 HumanEval-X 上的评价

本文介绍 CodeGeeX，一个具有 130 亿参数的多语言预训练代码生成模型。通过 extensive experiments，CodeGeeX 在 HumanEval-X 上表现出比其他类似规模的多语言代码模型更好的代码生成和转换性能。通过对 Visual Studio Code、JetBrains 和 Cloud Studio 进行扩展，CodeGeeX 可以为活跃用户生成 47 亿个 tokens，并帮助 83.4％的用户提高编码效率。

Mar, 2023

OpenCodeInterpreter: 将代码生成与执行和细化相整合

OpenCodeInterpreter 是一种开源代码系统，通过集成执行和人类反馈进行动态代码改进，从而弥补了开源代码生成模型与专有系统（如 GPT-4 代码解释器）之间的差距。

Feb, 2024

OpenAi 的 GPT4 作为编码助手

本文研究了 GPT3.5 和 GPT4 作为编码助手的性能，测试结果表明 GPT4 具有卓越的性能，可以提高程序员的生产力并重组基于这些新工具的软件开发流程。

Sep, 2023