Jun, 2024

XLogoOnline 环境下视觉编程的程序综合基准

TL;DR该研究使用大型语言和多模态模型,针对具备空间规划、基础编程和逻辑推理等不同技能要求的 Mini-level 任务,在 XLogoOnline 可视化编程环境下构建了一个新型的程序合成基准。通过使用大规模的合成训练数据集和模拟器驱动的反馈,开发了一个微调流程以提升模型的性能。研究表明,经过微调的 Llama3-8B 模型在不同技能维度上显著优于 GPT-4V 和 Llama3-70B 模型,并提供了对模型在不同技能维度上的专业知识的深入分析。该研究将公开发布该基准,以促进未来在可视化编程的程序合成领域的研究。