大语言模型的程序综合
通过对现有大型模型(包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot)的系统评估,我们填补了目前缺少大量模型和数据设计决策信息的空白,并提出了一个基于 GPT-2 架构的新模型(PolyCoder)。我们发现虽然Codex本身并不是开源的,但现有的开源模型在某些编程语言上取得了接近的结果,并且在 C 编程语言中,PolyCoder 模型优于所有模型包括 Codex。
Feb, 2022
本文介绍了一种基于大型语言模型的程序合成方法,其中所训练的模型在自然语言处理和编程语言数据上具有竞争力,以及构建的开放式基准Multi-Turn Programming Benchmark,该基准将单个程序分解为多个提示,从而显着提高了程序综合的准确性。本文提供了JAXFORMER的开放源码,以便更广泛地使用。
Mar, 2022
我们展示了一种能够通过Python解释器来过滤正确性的方法,使用Language Models能够合成编程问题和解决方案,并在自己的综合问题和验证解决方案方面进行微调,从而改进自身性能。
Jul, 2022
本文提出了一种利用输入数据对候选程序程序进行语义重新排序,并结合高低温度混合的技术,能够有效提升在数据操作领域中使用大型语言模型生成正确程序的准确性。
May, 2023
该研究探讨了大型语言模型在编程问题中的应用,发现最新技术如InstructGPT和ChatGPT在处理指令时表现优异,而早期使用变量名如Codex的模型的性能受描述问题时表浅的指标较大影响。
Jun, 2023
最近,大型语言模型(LLMs),特别是那些在代码上进行预训练的模型,展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而,这些模型的语言到代码生成能力缺乏全面的评估。本研究通过L2CEval系统地评估了LLMs在7个任务(包括语义解析、数学推理和Python编程)中的语言到代码生成能力,分析了可能影响它们性能的因素,如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能,我们还衡量了模型的置信度校准情况,并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval提供了对LLMs在语言到代码生成方面能力和限制的全面了解。同时,我们还发布了评估框架和所有模型输出,希望为今后在该领域的进一步研究奠定基础。
Sep, 2023
本研究对Python代码生成的两个广泛应用的基准测试——HumanEval和MBPP进行了大规模人工评估,重点关注它们的多样性与难度。研究结果发现,现有基准测试对少数编程概念存在显著偏向,而对大多数概念几乎没有或没有代表性的呈现。此外,研究还发现易于完成的编程问题所占比例极高,可能导致对模型在代码生成任务上性能的过高评价。
Jan, 2024
我们研究了大型语言模型在生成Python代码方面的优势和劣势,并提出了一种引导模型解决问题的思维链条提示,同时还提供了一个由60个不同难度级别的编程问题组成的数据集进行评估。
Apr, 2024
本研究解决了当前代码生成基准在任务多样性、测试覆盖率和语言范围上的局限,尤其是低资源语言的代码生成尚未得到充分探讨。通过引入mHumanEval,一个支持200多种自然语言提示的扩展基准,研究团队采用了成熟的机器翻译方法和质量保障流程,显著提升了多语言代码生成能力的评估。最终分析揭示了当前跨语言代码生成的状态,推动了该领域的发展。
Oct, 2024