Jun, 2023

面向编程教育的生成式人工智能:ChatGPT、GPT-4 和人类导师的基准测试

TL;DR本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4),并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估,并使用基于专家的注释进行评估。结果表明,GPT-4 明显优于 ChatGPT,并在某些场景下接近人类导师的表现,但在某些情况下仍表现不佳。