生物编码器：基于上下文语用知识的生物信息学代码生成基准

Aug, 2023

生物编码器：基于上下文语用知识的生物信息学代码生成基准

BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge

Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen...

TL;DR基于预训练语言模型的生物信息学代码生成的基准评估 BioCoder 表明，领域知识、实际代码生成和上下文理解的重要性。

Abstract

pre-trained language models like ChatGPT have significantly improved code generation. As these models scale up, there is an increasing need for the output to handle more intricate tasks. Moreover, in bioinformatics

pre-trained language models code generation bioinformatics benchmark functional programs

发现论文，激发创造

InCoder：用于代码填充和合成的生成模型

通过左到右生成和插值，InCoder 可以执行程序合成并编辑的任务。它是第一个可以直接执行零样本代码插值的生成模型，并在类型推断、注释生成和变量重命名等方面显示出优秀的性能。

Apr, 2022

GeneGPT：教导大型语言模型使用 NCBI Web APIs

本文介绍了 GeneGPT，一种利用 Web 应用程序编程接口解决基因组学问题的大型语言模型（LLMs）的新方法。在经过少量 NCBI API 调用的 URL 请求演示后，GeneGPT 能够提供具有状态良好的结果，并且优于其他一些先进的 LLMs，例如 GPT-3 和 ChatGPT。

Apr, 2023

AgentCoder: 基于多智能体的代码生成与迭代测试优化

介绍了一种名为 Multi-Agent Assistant Code Generation（AgentCoder）的新方法，它使用专门的程序员代理、测试设计师代理和测试执行代理来协同生成代码，解决了代码生成和测试用例生成之间的平衡问题，并在实验中表现出优于现有模型的性能。

Dec, 2023

SantaCoder: 别急着去触摸星星！

本技术报告介绍了 BigCode 项目截至 2022 年 12 月的进展情况，包括当前状态的个人身份信息 (PII) 清理管道、减少模型架构风险的实验以及改进训练数据预处理方法的实验。我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数模型，并在 MultiPL-E 的文本到代码基准测试上进行了评估。我们发现，更激进地过滤近似重复的数据可以进一步提高性能，并令人惊讶的是，从具有超过 5 个 GitHub 星的代码库中选择文件实际上会明显降低性能。我们最好的模型在 MultiPL-E 的 Java、JavaScript 和 Python 部分的从左到右生成和插值中都优于以前的开源多语言代码生成模型 (InCoder-6.7B 和 CodeGen-Multi-2.7B)，尽管它是一个相对较小的模型。所有模型均在 https://github.com/bigcode/BIGCODE 中以 OpenRAIL 许可证发布。

Jan, 2023

StarCoder: 愿源码与你同在！

这篇论文介绍 BigCode 社区的开源科学协作计划，具体讨论了基于 GitHub 数据和 Fine-tuning 方法所训练的大规模语言模型 StarCoder 和 StarCoderBase，证明加强的 PII 去识别流程和追溯工具等重要措施可以更安全地发布模型，并公开发布符合开源 AI 模型许可证商业版本的 StarCoder 模型。

May, 2023

分治与共识的结合：释放代码生成中函数的威力

使用 FunCoder 框架，结合分而治之的策略和函数的共识，递归拆分子函数并将其组合，以应对复杂的需求，并通过功能共识在正确性评估方面具有优势。

May, 2024

代码生成的编码器评审重新排名

通过添加 Reviewer 模型来限制生成代码的多样性并对生成结果进行评估，从而改善了常见的代码生成算法中对退化方案的倾向，实验结果表明，这种算法实现简单且泛化性强，有望在某些情况下取代最小贝叶斯风险方法。

Nov, 2022

GPT-3.5 和 Bard 人工智能模型在 Java 函数代码生成能力方面的初步分析

本研究评估了两种先进的人工智能模型 GPT-3.5 和 Bard 在给定函数描述时生成 Java 代码的能力，并发现 GPT-3.5 在正确生成代码方面的表现优于 Bard 约 37.5％。该研究强调了人工智能在软件开发中自动化和支持方面的潜力，但还需要进一步的研究来充分实现这一潜力。

May, 2023

WizardCoder：用 Evol-Instruct 使大型语言模型掌握编程技能

本文介绍了 WizardCoder，它利用 Evol-Instruct 方法将复杂的指令微调应用于代码领域，通过对四个主要的代码生成基准进行全面实验，揭示了该模型的出色能力，并超越了所有其他开源 Code LLMs，甚至在 HumanEval 和 HumanEval + 上表现出秀。

Jun, 2023

MathCoder：深化数学推理的 LLMs 中无缝代码集成

我们提出了一种方法，通过对开源语言模型进行微调，使其能够使用代码进行建模，并推导出数学方程，从而增强其数学推理能力。我们介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法，称为 MathCodeInstruct。我们还引入了一种定制的有监督微调和推理方法。这种方法产生了 MathCoder 模型，一组能够生成基于代码的解决方案来解决具有挑战性的数学问题的模型。令人印象深刻的是，MathCoder 模型在 MATH（45.2％）和 GSM8K（83.9％）数据集上取得了开源语言模型的最新得分，远远超过其他开源方案。值得注意的是，MathCoder 模型不仅在 GSM8K 和 MATH 上超过了 ChatGPT-3.5 和 PaLM-2，还超过了 GPT-4 在竞争级别的 MATH 数据集上。数据集和模型将在此 URL 发布。

Oct, 2023