小型代码语言模型的课程学习

Jul, 2024

Curriculum Learning for Small Code Language Models

Marwa Naïr, Kamel Yamani, Lynda Said Lhadj, Riyadh Baghdadi

TL;DR本文研究了课程学习对代码语言模型性能的增强潜力，并表明对于小型仅有解码器的代码语言模型，在代码执行任务中经过良好设计的课程学习方法显著提高了准确性，而在代码完成任务中影响较小。

Abstract

code language models have emerged as useful tools for various programming tasks, yet they often struggle when it comes to complex ones. In this paper, we explore the potential of curriculum learning in enhancing

发现论文，激发创造

代码的大型语言模型的系统评估

通过对现有大型模型(包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot)的系统评估，我们填补了目前缺少大量模型和数据设计决策信息的空白，并提出了一个基于 GPT-2 架构的新模型(PolyCoder)。我们发现虽然Codex本身并不是开源的，但现有的开源模型在某些编程语言上取得了接近的结果，并且在 C 编程语言中，PolyCoder 模型优于所有模型包括 Codex。

Feb, 2022

使用几乎免费的代码生成工具？对预训练语言模型在代码上进行少量学习的研究

本文研究使用预训练的代码语言模型Codex进行few-shot学习的三个代码操作和生成任务，实现手动开发工具所需的更少的工作量，并提供关于如何设计适当输入和影响模型大小的见解，结果表明few-shot语言模型是出乎意料地有效的，但还需要探索更多多样的提示方式来处理更多复杂的任务。

Jun, 2022

StudentEval: 学生编写的大型语言模型代码提示基准

本研究设计了一个基于Python程序的新评测标准StudentEval,使用多个具体的非专家受试者编写的问题提示，对比评估了5种Code LLM模型的性能，结果表明这种评测标准是更好的模型性能判别标准。同时，研究还发现了学生提示技术的显著变异和LLM采样的不确定性可能会误导学生，这些发现对于使用Code LLMs进行教学具有影响。

Jun, 2023

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如InstructGPT和ChatGPT在处理指令时表现优异，而早期使用变量名如Codex的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5和GPT-4在解决入门级编程任务中的表现，并根据表现得出了利用LLMs进行教学场景和评估格式的暗示。研究选取了来自免费网站CodingBat的72个针对初学者的Python任务，使用完整任务描述作为LLMs的输入，通过CodingBat的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为94.4％至95.8％，同时文本解释和程序代码的可用性可靠，从而为将LLMs纳入编程教育和评估中打开了新的途径。

Aug, 2023

探索大型语言模型生成形成性编程反馈的潜力

探索大型语言模型在计算机教育和学习中的潜力，通过分析其对带有程序代码的输入生成的反馈进行研究，以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明，大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能，但教育者应提供指导，因为其提供的反馈可能对初学者包含误导性信息。

Aug, 2023

代码语言模型综述

系统综述了代码处理与语言模型的最新进展，包括50+种模型，30+项评估任务和500多个相关研究。分析了通用语言模型（如GPT系列）和专门针对代码进行预训练的模型之间的关系和区别，并强调了代码建模从统计模型和RNN到预训练Transformer和LLM的历史转变。讨论了代码特定的特征及其在训练代码语言模型中的应用，并确定了该领域的主要挑战和潜在未来方向。

Nov, 2023

代码补全的语言模型：实践评估

基于Transformer的语言模型在自动代码补全方面显示出巨大的潜力，但是这些模型的评估很少使用真实数据。本研究提供了对三个公共代码语言模型在完成真实世界代码时的定量和定性评估。

Feb, 2024

大型语言模型作为代码执行器：探索性研究

本研究探讨了大型语言模型（LLMs）作为代码执行器的潜力，首次系统性地分析了多个模型在代码执行中的可行性。研究提出了逐行处理代码片段的迭代指令提示（IIP）技术，有效提高了较弱模型的准确性，最高提升达18.96%。该研究为未来的自动编程和复杂任务的完成奠定了基础。

Oct, 2024

大型语言模型作为代码执行器：探索性研究

本研究针对大型语言模型（LLMs）在代码理解和生成方面的能力进行了深入探讨，填补了将 LLMs 作为代码执行器的研究空白。我们提出了一种迭代指令提示（IIP）技术，以逐行处理代码片段，显著提高了较弱模型的准确性，进而展示了 LLMs 在编程自动化和复杂任务完成中的潜在变革性影响。

Oct, 2024