Hints-In-Browser：针对编程反馈生成的语言模型基准测试

Jun, 2024

Hints-In-Browser：针对编程反馈生成的语言模型基准测试

Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation

Nachiket Kotalwar, Alkis Gotovos, Adish Singla

TL;DR通过在浏览器中进行推理的新范式，基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示，本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准，展示了与浏览器推理引擎兼容的小型模型的反馈质量提升，并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性，同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。

Abstract

generative ai and large language models hold great promise in enhancing programming education by generating individualized feedback and hi

generative ai large language models programming education feedback generation in-browser inference

发现论文，激发创造

评估大型语言模型在编程教育中生成反馈的应用

该研究探讨了大型语言模型（特别是 GPT-4）在提升编程教育方面的应用。该研究介绍了一个利用 GPT-4 设计的网页应用，用于对编程任务提供反馈，但不提供解决方案。该网页应用在一个学期内进行了 51 名学生的评估，结果显示 GPT-4 生成的大部分反馈有效地解决了代码错误。然而，不正确的建议和虚构的问题导致进一步改进的需求。

Mar, 2024

探索大型语言模型生成形成性编程反馈的潜力

探索大型语言模型在计算机教育和学习中的潜力，通过分析其对带有程序代码的输入生成的反馈进行研究，以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明，大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能，但教育者应提供指导，因为其提供的反馈可能对初学者包含误导性信息。

Aug, 2023

自动化人类导师式编程反馈：利用 GPT-4 导师模型生成提示以及 GPT-3.5 学生模型验证提示

使用生成式 AI 模型和大规模语言模型来生成编程教育中的个性化反馈，为学生提供编程提示以帮助他们解决程序中的错误。通过使用 GPT-4 作为 “导师” 模型和符号信息来提高生成质量，然后通过使用 GPT-3.5 作为 “学生” 模型来验证提示质量，我们开发了一种名为 GPT4Hints-GPT3.5Val 的新技术，通过对三个实际数据集进行广泛评估展示了我们技术的有效性。

Oct, 2023

开源语言模型的反馈能力评估：利用 GPT-4 作为评委帮助学生的能力

通过使用 GPT-4 对多个开源语言模型的反馈进行评估，本研究探讨了大型语言模型在教育领域中生成反馈的质量，并发现一些模型在性能上可以与专有的语言模型竞争，从而为其在教学环境中的负责任使用提供机会。

May, 2024

用大型语言模型（GPT）自动化编程作业反馈

本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示，实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。

Jun, 2023

使用 GPT-4 进行程序练习的反馈生成

该研究探索了使用 GPT-4 Turbo 生成学生编程提交的反馈，研究结果显示相比 GPT-3.5，GPT-4 Turbo 在输出质量上有显著的改进，可以更准确地识别学生程序输出中的错误，并能为学生提供结构化和一致的反馈。此研究还增加了我们对大型语言模型在电子评估系统、教学场景和指导学生使用基于 GPT-4 的应用中潜力和限制的理解。

Mar, 2024

最小人工投入快速开发大型语言模型的高质量指导数据和评估基准：以日语为例的案例研究

我们提出了基于 GPT-4 的高效自指导方法，通过翻译少量英语指令并进行修订，为日语构建高质量的指令数据和评估基准，并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。

Mar, 2024

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

大语言模型的程序综合

本文探索了大型语言模型在通用编程语言的程序合成方面的局限性，并在新的基准测试中评估了这些模型的性能。作者在两个基准测试（MBPP 和 MathQA-Python）上测试了这些模型，结果表明这些模型的性能随着其大小的增加而呈现对数线性关系。他们研究了这些模型进行对话以及语意建模的能力，并发现即使是最好的模型也无法完全预测某些程序的输出。

Aug, 2021

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023