Jun, 2023

面向编程教育的生成式人工智能:ChatGPT、GPT-4和人类导师的基准测试

TL;DR本研究系统评估了两种模型(基于GPT-3.5的ChatGPT和GPT-4),并将它们与人类导师在各种情形下的表现进行比较。我们使用五个Python编程问题和来自在线平台的真实有bug程序进行评估,并使用基于专家的注释进行评估。结果表明,GPT-4明显优于ChatGPT,并在某些场景下接近人类导师的表现,但在某些情况下仍表现不佳。