StudentEval: 学生编写的大型语言模型代码提示基准

Jun, 2023

StudentEval: 学生编写的大型语言模型代码提示基准

StudentEval: A Benchmark of Student-Written Prompts for Large Language Models of Code

Hannah McLean Babe, Sydney Nguyen, Yangtian Zi, Arjun Guha, Molly Q Feldman...

TL;DR本研究设计了一个基于Python程序的新评测标准StudentEval,使用多个具体的非专家受试者编写的问题提示，对比评估了5种Code LLM模型的性能，结果表明这种评测标准是更好的模型性能判别标准。同时，研究还发现了学生提示技术的显著变异和LLM采样的不确定性可能会误导学生，这些发现对于使用Code LLMs进行教学具有影响。

Abstract

code llms are being rapidly deployed and there is evidence that they can make professional programmers more productive. Current benchmarks for code generation measure whether models generate correct programs given an expert prompt. In this paper, we present a new →

发现论文，激发创造

探索大型语言模型对初学者程序员求助请求的响应

本文探讨了在编程教育中使用大型语言模型（LLMs）的机会和威胁，研究表明LLMs有助于识别学生代码中的问题，但不可靠，需要在未来的研究中进一步挖掘。

Jun, 2023

迅速：使用引导问题教授学习者如何有效利用AI代码生成器

通过引入“Prompt Problem”概念以及开发名为Promptly的工具，本文介绍了一种新的教学方法，可以帮助学生学习如何为大型语言模型构建有效的提示，通过一项实地研究发现，Promptly大部分被学生们积极接受，并且能够激发他们的计算思维能力和接触新的编程结构，未来的研究方向包括Prompt Problem设计的改进以及将其整合进课程和教学实践中的研究。

Jul, 2023

ClassEval: 评估 LLMs 在类级别代码生成上的人工制作基准

我们首次尝试在更具挑战性的类级代码生成情景中评估LLMs，并构建了一个包括100个类级Python代码生成任务的基准测试集，通过对11种最新LLMs在类级代码生成任务上的研究，发现现有LLMs在类级代码生成上表现较差，GPT-4和GPT-3.5在类级代码生成上的表现卓越，而逐方法生成是其他模型更好的策略。

Aug, 2023

探索大型语言模型在初级编程课程中生成追踪代码问题的潜力

我们探讨了在初级编程课程中应用大型语言模型（LLM）生成代码追踪问题的方法，通过设计指导GPT4生成基于代码片段和描述的代码追踪问题的有针对性提示，并建立了一套人工评价指标，用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭示了LLMs在生成多样化代码追踪问题方面的能力和潜力，并提供了一个独特的人工和LLM生成的追踪问题数据集，为教育和自然语言处理研究社区提供了宝贵资源。这项工作为关于LLMs在教育环境中潜在用途的持续对话做出了贡献。

Oct, 2023

测试在不同级别的提示特异性下进行的代码生成的LLMs

评估了各种LLM在生成Python代码方面的性能，揭示了创建准确的Python函数的理想提示策略。

Nov, 2023

与提示问题的交互：使用大型语言模型进行编程教学的新方法

通过Prompt Problems的方法，我们提出了一种新的教授编程的方式，学生可以通过将问题转化为语言模型（LLMs）所能理解的提示来解决编程问题，并且我们展示了这个工具的设计、学生使用情况以及将LLMs整合到设计工具中所带来的新型编程问题和洞见。

Jan, 2024

代码生成中使用的提示的质量评估

评估大型语言模型在代码生成方面的效果时，需要使用健全的基准测试，而不严谨的评估基准会提供虚假的性能表现。本研究分析了9个代码生成基准中的3,566个提示，以确定其中的质量问题，并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于Python和编码练习，且缺乏上下文依赖关系，同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高Python代码生成的性能，但对Java代码生成的改进不明显。此外，还发现GPT-3.5-Turbo和CodeGen-2.5模型可能存在数据污染问题。

Apr, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

评估生成和判断编程反馈的语言模型

使用开源的大型语言模型在学习编程中评估编程作业反馈的高质量和评判编程反馈的质量方面，与专有的模型相比，取得了很好的效果。

Jul, 2024

利用LLMs增强计算机编程教育：针对Python代码生成的有效提示工程研究

通过系统分类和测试提示策略，我们为教育者和学生提供了一个全面的框架，以优化基于大型语言模型和提示工程的学习经验，从而最大化计算机编程教育的效益。

Jul, 2024