在小学可视化编程中对生成模型进行计算思维测试的基准评估
该研究使用大型语言和多模态模型,针对具备空间规划、基础编程和逻辑推理等不同技能要求的 Mini-level 任务,在 XLogoOnline 可视化编程环境下构建了一个新型的程序合成基准。通过使用大规模的合成训练数据集和模拟器驱动的反馈,开发了一个微调流程以提升模型的性能。研究表明,经过微调的 Llama3-8B 模型在不同技能维度上显著优于 GPT-4V 和 Llama3-70B 模型,并提供了对模型在不同技能维度上的专业知识的深入分析。该研究将公开发布该基准,以促进未来在可视化编程的程序合成领域的研究。
Jun, 2024
生成式人工智能和大型语言模型在计算机教育领域有潜力通过自动生成个性化反馈和内容来大幅改善情况。本文研究了这些模型在文本编程教育领域的能力,但是对于常用于 K-8 编程教育的可视化编程领域的性能尚未探究。本研究评估了 ChatGPT 和 GPT-4 两个模型在不同场景的可视化编程领域中的表现,并通过专家评注进行了性能评估。结果显示这些模型在整合空间、逻辑和编程技能方面性能较差,为改进生成式模型在可视化编程中的表现提供了有趣的发展方向。
Jul, 2023
本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4),并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估,并使用基于专家的注释进行评估。结果表明,GPT-4 明显优于 ChatGPT,并在某些场景下接近人类导师的表现,但在某些情况下仍表现不佳。
Jun, 2023
我们介绍了一个新的挑战来测试神经模型的 STEM 技能,我们的数据集涵盖了 STEM 的多模式视觉语言信息,包括了 448 项技能和 1,073,146 个问题,与现有数据集相比,我们的数据集涵盖了从幼儿园到 12 年级课程的基础技能和问题,并添加了 CLIP 和 GPT-3.5-Turbo 等最新的基础模型到我们的基准测试,结果表明,最近的模型进展只有在我们数据集中的一小部分低年级技能(三年级的 2.5%)上有所帮助,事实上,这些模型的性能仍然远低于小学生的平均水平(仅平均 54.7%),更不用说接近专家级性能了,为了提高我们数据集上的模型性能,我们将模型训练在数据集的训练集上,尽管我们观察到性能有所提升,但与普通小学生相比,模型性能仍然相对较低,因此我们需要来自社区的创新算法来解决 STEM 问题。
Feb, 2024
本研究评估了 GPT-3.5 和 GPT-4 编程模型的编程熟练度,这些模型对于不同难度级别的编程问题的求解存在明显的局限性,作者提出了一个融合了问题难度和解题时间的编程问题复杂性度量标准,并强调了需要在 AI 模型中加入验证和创造性思维能力以更好地模拟人类问题解决技术的必要性。
May, 2023
通过在浏览器中进行推理的新范式,基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示,本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准,展示了与浏览器推理引擎兼容的小型模型的反馈质量提升,并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性,同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。
Jun, 2024
通过 MAGE 框架,本研究旨在探索 LLM ChatGPT4 应用的能力,为教育工作者提供一个方法,以在其学科背景中系统地评估其评估的脆弱性,并提供特定和针对性的问题脆弱性指示,以评估关键思维技能的基础。
Jun, 2024
本文介绍了一个新的基准数据集 JEEBench,用于评估 Large Language Models 的问题解决能力,其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估,发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术,GPT4 的最佳表现仍不到 40%,错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。
May, 2023
本文提出了一种名为 TiP 的方法,该方法将代码生成分解为两个步骤,逐步引导大型语言模型(LLMs)在编程逻辑中分析和实现要求,并在三个公共基准测试中进行了广泛的实验,结果表明 TiP 在多个指标上优于现有的基线 (ChatGPT),且对于不同的 LLMs 具有有效性。
May, 2023