使用 OpenAI 的 Codex 进行自动程序修复:评估 QuixBugs
本研究检验了 AI 助手 Copilot 使用 Codex 生成代码时存在的简单错误(SStuBs),发现 Codex 和其他大型语言模型确实可以避免一些 SStuBs,但会生成已知的错误。我们探讨了这些错误的后果,并提出了一些避免策略,可能减少已知的 SStuBs 的产生,增加已知错误的修复概率。
Mar, 2023
本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型,并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上,我们的模型可解决 28.8% 的问题,并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性,最终讨论了代码生成技术的潜在影响。
Jul, 2021
本文提出一种基于 CodeBERT 的自动化程序修复方法,使用 ManySStuBs4J 小和大数据集对模型进行微调,能够准确地预测开发人员在 19-72%的情况下实现修复代码,并可以在不到一秒钟的时间内自动生成修复程序。
Mar, 2021
使用 Codex 这样的大型编程语言模型,在多模式提示、迭代式查询、基于测试用例的少样本选择和程序块组合的帮助下,构建了一个自动编程修复 (MMAPR) 系统来解决学生在 Python 编程课程中常见的语法和语义错误问题,并与已有基线方案相比较得出了较好的结果。
Sep, 2022
本文首次研究并比较了基于大型代码语言模型和基于深度学习的自动化程序修复技术在 Java 漏洞修复方面的能力,结果表明现有的语言模型和程序修复技术修复的 Java 漏洞很少,呼吁创新提高 Java 漏洞修复的自动化程度。
May, 2023
通过对 Codex 语言模型的 Text-to-SQL 能力进行实证评估,我们发现 Codex 在 Spider 基准测试中是一个强有力的基线,并分析了 Codex 在该设置中的失败模式。此外,我们展示了在 GeoQuery 和 Scholar 基准测试中,提供少量领域内示例可以使 Codex 表现优于针对这些少量样例进行微调的现有模型。
Mar, 2022
CodexDB 基于 GPT-3 Codex 模型,通过自然语言指令将复杂的 SQL 查询分解成一系列简单处理步骤,并将文本转换为查询处理代码。
Apr, 2022
本文研究了利用大型语言模型进行自然语言生成的能力,并应用于编程课程中常见的两种学习资源的制作。研究发现,在创建编程练习时,只需要输入关键词,即可显著影响编程概念和上下文主题的内容,同时也证明了大多数自动生成的内容是全新且合理的。这些结果表明,使用大型生成机器学习模型作为教学工具是有重要价值的,但在交付给学生之前需要一些监督来确保生成的内容质量。文章还探讨了 OpenAI Codex 及类似工具对初学者编程教育的影响,并强调了可能改善教学体验的未来研究方向。
Jun, 2022
通过对现有大型模型 (包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot) 的系统评估,我们填补了目前缺少大量模型和数据设计决策信息的空白,并提出了一个基于 GPT-2 架构的新模型 (PolyCoder)。我们发现虽然 Codex 本身并不是开源的,但现有的开源模型在某些编程语言上取得了接近的结果,并且在 C 编程语言中,PolyCoder 模型优于所有模型包括 Codex。
Feb, 2022
使用大型语言模型的程序修复任务中,通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集,我们的系统能够在更少的案例中准确匹配人工修复,并显著提升可用模型的性能。
Feb, 2024