Jigsaw: 大型语言模型与程序综合的结合

Dec, 2021

Jigsaw: 大型语言模型与程序综合的结合

Jigsaw: Large Language Models meet Program Synthesis

Naman Jain, Skanda Vaidyanath, Arun Iyer, Nagarajan Natarajan, Suresh Parthasarathy...

TL;DR本文研究了利用基于语义分析和综合技术的后处理步骤来增强大型预训练语言模型，并通过使用 Python Pandas API 的多模态输入来合成代码。

Abstract

Large pre-trained language models such as GPT-3, Codex, and Google's language model are now capable of generating code from natural language specifications of programmer intent. We view these developments with a mixture of optimism and caution. On the optimistic side, such large langua

pre-trained language models ai pair programmer program analysis program synthesis python pandas api

发现论文，激发创造

大语言模型的程序综合

本文探索了大型语言模型在通用编程语言的程序合成方面的局限性，并在新的基准测试中评估了这些模型的性能。作者在两个基准测试（MBPP 和 MathQA-Python）上测试了这些模型，结果表明这些模型的性能随着其大小的增加而呈现对数线性关系。他们研究了这些模型进行对话以及语意建模的能力，并发现即使是最好的模型也无法完全预测某些程序的输出。

Aug, 2021

CodeGen: 一个用于代码的开放式大语言模型，支持多轮程序综合

本文介绍了一种基于大型语言模型的程序合成方法，其中所训练的模型在自然语言处理和编程语言数据上具有竞争力，以及构建的开放式基准 Multi-Turn Programming Benchmark，该基准将单个程序分解为多个提示，从而显着提高了程序综合的准确性。本文提供了 JAXFORMER 的开放源码，以便更广泛地使用。

Mar, 2022

使用大型语言模型自动生成编程练习和代码解释

本文研究了利用大型语言模型进行自然语言生成的能力，并应用于编程课程中常见的两种学习资源的制作。研究发现，在创建编程练习时，只需要输入关键词，即可显著影响编程概念和上下文主题的内容，同时也证明了大多数自动生成的内容是全新且合理的。这些结果表明，使用大型生成机器学习模型作为教学工具是有重要价值的，但在交付给学生之前需要一些监督来确保生成的内容质量。文章还探讨了 OpenAI Codex 及类似工具对初学者编程教育的影响，并强调了可能改善教学体验的未来研究方向。

Jun, 2022

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

大型语言模型与自动化机器学习的协同效应

使用大型语言模型 (LLMs) 驱动的代码生成在最近变得越来越流行。然而，自动生成机器学习 (ML) 任务的代码仍然面临着重大挑战。本文通过结合 LLMs 和自动化机器学习 (autoML) 来探索 ML 程序合成的极限，旨在完全自动化从数据准备到建模和后处理的整个 ML 工作流程的代码生成过程，只使用 ML 任务的文本描述。

May, 2024

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异，而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

用于科学综合、推理和解释的大型语言模型

使用大型语言模型进行科学综合、推理和解释，通过从科学文献综合知识，将其应用于预测分子属性等任务，提高了当前机器学习系统的性能，并能解释其预测结果，将加速科学发现的进程。

Oct, 2023

代码的大型语言模型的系统评估

通过对现有大型模型 (包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot) 的系统评估，我们填补了目前缺少大量模型和数据设计决策信息的空白，并提出了一个基于 GPT-2 架构的新模型 (PolyCoder)。我们发现虽然 Codex 本身并不是开源的，但现有的开源模型在某些编程语言上取得了接近的结果，并且在 C 编程语言中，PolyCoder 模型优于所有模型包括 Codex。

Feb, 2022

利用语言模型对社会科学数据集进行编码

研究表明，使用语言模型（LMs）可以处理人类编码的文本，通过与人类编码员的比较，我们发现 GPT-3 可以达到与人类编码员相当的表现水平，这为在很多领域中应用语言模型来处理文本提供了证据。

Jun, 2023

对基于代码训练的大型语言模型的评估

本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型，并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上，我们的模型可解决 28.8% 的问题，并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性，最终讨论了代码生成技术的潜在影响。

Jul, 2021

Jigsaw: 大型语言模型 与 程序综合 的结合

Jigsaw: 大型语言模型与程序综合的结合