XLogoOnline 环境下视觉编程的程序综合基准

Jun, 2024

XLogoOnline 环境下视觉编程的程序综合基准

Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment

Chao Wen, Jacqueline Staub, Adish Singla

TL;DR该研究使用大型语言和多模态模型，针对具备空间规划、基础编程和逻辑推理等不同技能要求的 Mini-level 任务，在 XLogoOnline 可视化编程环境下构建了一个新型的程序合成基准。通过使用大规模的合成训练数据集和模拟器驱动的反馈，开发了一个微调流程以提升模型的性能。研究表明，经过微调的 Llama3-8B 模型在不同技能维度上显著优于 GPT-4V 和 Llama3-70B 模型，并提供了对模型在不同技能维度上的专业知识的深入分析。该研究将公开发布该基准，以促进未来在可视化编程的程序合成领域的研究。

Abstract

large language and multimodal models have shown remarkable successes on various benchmarks focused on specific skills such as general-purpose programming, natural language understanding, math word problem-solving, and visual question answering. However, it is unclear how well these mod

large language and multimodal models program synthesis benchmark xlogoonline visual programming fine-tuning pipeline emulator-driven feedback

发现论文，激发创造

在小学可视化编程中对生成模型进行计算思维测试的基准评估

通过使用基于符号方法生成的综合数据集，对生成模型进行微调以提高在计算思维测试中的表现。

Jun, 2024

Hints-In-Browser：针对编程反馈生成的语言模型基准测试

通过在浏览器中进行推理的新范式，基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示，本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准，展示了与浏览器推理引擎兼容的小型模型的反馈质量提升，并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性，同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。

Jun, 2024

评估 ChatGPT 和 GPT-4 在视觉编程中的应用

生成式人工智能和大型语言模型在计算机教育领域有潜力通过自动生成个性化反馈和内容来大幅改善情况。本文研究了这些模型在文本编程教育领域的能力，但是对于常用于 K-8 编程教育的可视化编程领域的性能尚未探究。本研究评估了 ChatGPT 和 GPT-4 两个模型在不同场景的可视化编程领域中的表现，并通过专家评注进行了性能评估。结果显示这些模型在整合空间、逻辑和编程技能方面性能较差，为改进生成式模型在可视化编程中的表现提供了有趣的发展方向。

Jul, 2023

大语言模型的程序综合

本文探索了大型语言模型在通用编程语言的程序合成方面的局限性，并在新的基准测试中评估了这些模型的性能。作者在两个基准测试（MBPP 和 MathQA-Python）上测试了这些模型，结果表明这些模型的性能随着其大小的增加而呈现对数线性关系。他们研究了这些模型进行对话以及语意建模的能力，并发现即使是最好的模型也无法完全预测某些程序的输出。

Aug, 2021

视觉编程的神经任务合成

使用神经符号技术 NeurTaskSyn, 可以为给定的编程要求自动综合编程任务，可提高编程教育的质量。

May, 2023

GenSim：通过大型语言模型生成机器人仿真任务

通过使用语言模型生成丰富的仿真环境和专家演示，在模拟数据上进行多任务策略训练，极大地增强了任务级泛化能力，并实现了对未见过的现实任务的强大转移能力。

Oct, 2023

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

大型语言模型用于上下文学生建模：从一次性观察中合成学生在视觉编程中的行为

利用大型语言模型在开放式学习环境中进行学生建模，引入了一种新的框架，LLM-SS，该框架利用 LLMs 来合成学生的行为，并使用领域专业知识对 LLMs 进行微调，以提高对领域背景和学生行为的理解，实验证明在学生尝试合成基准中与基线方法相比有显著改进，并且使用经过微调的 Llama2-70B 模型的方法与使用最先进的 GPT-4 模型相当。

Oct, 2023

利用自我训练大型语言模型改进视觉程序合成与视觉强化

利用交互式经验反馈改进大规模语言模型的视觉程序合成能力，通过利用现有的视觉语言任务注释为该任务创造一个粗略的奖励信号，将语言模型作为一种策略，并应用增强的自训练，显示出在对象检测、复合视觉问答和图像 - 文本检索方面，经过自训练的语言模型在每种情况下优于或与量级更大的少样本冻结的语言模型相媲美。

Apr, 2024

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024