小型代码语言模型的课程学习
通过对现有大型模型(包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot)的系统评估,我们填补了目前缺少大量模型和数据设计决策信息的空白,并提出了一个基于 GPT-2 架构的新模型(PolyCoder)。我们发现虽然Codex本身并不是开源的,但现有的开源模型在某些编程语言上取得了接近的结果,并且在 C 编程语言中,PolyCoder 模型优于所有模型包括 Codex。
Feb, 2022
本文研究使用预训练的代码语言模型Codex进行few-shot学习的三个代码操作和生成任务,实现手动开发工具所需的更少的工作量,并提供关于如何设计适当输入和影响模型大小的见解,结果表明few-shot语言模型是出乎意料地有效的,但还需要探索更多多样的提示方式来处理更多复杂的任务。
Jun, 2022
本研究设计了一个基于Python程序的新评测标准StudentEval,使用多个具体的非专家受试者编写的问题提示,对比评估了5种Code LLM模型的性能,结果表明这种评测标准是更好的模型性能判别标准。同时,研究还发现了学生提示技术的显著变异和LLM采样的不确定性可能会误导学生,这些发现对于使用Code LLMs进行教学具有影响。
Jun, 2023
该研究探讨了大型语言模型在编程问题中的应用,发现最新技术如InstructGPT和ChatGPT在处理指令时表现优异,而早期使用变量名如Codex的模型的性能受描述问题时表浅的指标较大影响。
Jun, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5和GPT-4在解决入门级编程任务中的表现,并根据表现得出了利用LLMs进行教学场景和评估格式的暗示。研究选取了来自免费网站CodingBat的72个针对初学者的Python任务,使用完整任务描述作为LLMs的输入,通过CodingBat的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为94.4%至95.8%,同时文本解释和程序代码的可用性可靠,从而为将LLMs纳入编程教育和评估中打开了新的途径。
Aug, 2023
探索大型语言模型在计算机教育和学习中的潜力,通过分析其对带有程序代码的输入生成的反馈进行研究,以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明,大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能,但教育者应提供指导,因为其提供的反馈可能对初学者包含误导性信息。
Aug, 2023
系统综述了代码处理与语言模型的最新进展,包括50+种模型,30+项评估任务和500多个相关研究。分析了通用语言模型(如GPT系列)和专门针对代码进行预训练的模型之间的关系和区别,并强调了代码建模从统计模型和RNN到预训练Transformer和LLM的历史转变。讨论了代码特定的特征及其在训练代码语言模型中的应用,并确定了该领域的主要挑战和潜在未来方向。
Nov, 2023
基于Transformer的语言模型在自动代码补全方面显示出巨大的潜力,但是这些模型的评估很少使用真实数据。本研究提供了对三个公共代码语言模型在完成真实世界代码时的定量和定性评估。
Feb, 2024
本研究探讨了大型语言模型(LLMs)作为代码执行器的潜力,首次系统性地分析了多个模型在代码执行中的可行性。研究提出了逐行处理代码片段的迭代指令提示(IIP)技术,有效提高了较弱模型的准确性,最高提升达18.96%。该研究为未来的自动编程和复杂任务的完成奠定了基础。
Oct, 2024
本研究针对大型语言模型(LLMs)在代码理解和生成方面的能力进行了深入探讨,填补了将 LLMs 作为代码执行器的研究空白。我们提出了一种迭代指令提示(IIP)技术,以逐行处理代码片段,显著提高了较弱模型的准确性,进而展示了 LLMs 在编程自动化和复杂任务完成中的潜在变革性影响。
Oct, 2024