Jigsaw: 大型语言模型 与 程序综合 的结合
本文探索了大型语言模型在通用编程语言的程序合成方面的局限性,并在新的基准测试中评估了这些模型的性能。作者在两个基准测试(MBPP 和 MathQA-Python)上测试了这些模型,结果表明这些模型的性能随着其大小的增加而呈现对数线性关系。他们研究了这些模型进行对话以及语意建模的能力,并发现即使是最好的模型也无法完全预测某些程序的输出。
Aug, 2021
本文介绍了一种基于大型语言模型的程序合成方法,其中所训练的模型在自然语言处理和编程语言数据上具有竞争力,以及构建的开放式基准 Multi-Turn Programming Benchmark,该基准将单个程序分解为多个提示,从而显着提高了程序综合的准确性。本文提供了 JAXFORMER 的开放源码,以便更广泛地使用。
Mar, 2022
本文研究了利用大型语言模型进行自然语言生成的能力,并应用于编程课程中常见的两种学习资源的制作。研究发现,在创建编程练习时,只需要输入关键词,即可显著影响编程概念和上下文主题的内容,同时也证明了大多数自动生成的内容是全新且合理的。这些结果表明,使用大型生成机器学习模型作为教学工具是有重要价值的,但在交付给学生之前需要一些监督来确保生成的内容质量。文章还探讨了 OpenAI Codex 及类似工具对初学者编程教育的影响,并强调了可能改善教学体验的未来研究方向。
Jun, 2022
利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
Oct, 2023
使用大型语言模型 (LLMs) 驱动的代码生成在最近变得越来越流行。然而,自动生成机器学习 (ML) 任务的代码仍然面临着重大挑战。本文通过结合 LLMs 和自动化机器学习 (autoML) 来探索 ML 程序合成的极限,旨在完全自动化从数据准备到建模和后处理的整个 ML 工作流程的代码生成过程,只使用 ML 任务的文本描述。
May, 2024
该研究探讨了大型语言模型在编程问题中的应用,发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异,而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。
Jun, 2023
使用大型语言模型进行科学综合、推理和解释,通过从科学文献综合知识,将其应用于预测分子属性等任务,提高了当前机器学习系统的性能,并能解释其预测结果,将加速科学发现的进程。
Oct, 2023
通过对现有大型模型 (包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot) 的系统评估,我们填补了目前缺少大量模型和数据设计决策信息的空白,并提出了一个基于 GPT-2 架构的新模型 (PolyCoder)。我们发现虽然 Codex 本身并不是开源的,但现有的开源模型在某些编程语言上取得了接近的结果,并且在 C 编程语言中,PolyCoder 模型优于所有模型包括 Codex。
Feb, 2022
研究表明,使用语言模型(LMs)可以处理人类编码的文本,通过与人类编码员的比较,我们发现 GPT-3 可以达到与人类编码员相当的表现水平,这为在很多领域中应用语言模型来处理文本提供了证据。
Jun, 2023
本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型,并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上,我们的模型可解决 28.8% 的问题,并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性,最终讨论了代码生成技术的潜在影响。
Jul, 2021