Mar, 2024

大学级编程课中人类、GPT-3.5 和 GPT-4 的性能比较

TL;DRChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中,通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较,共收集了 300 个数据点。研究发现,尽管 AI 生成的作品接近于大学生的质量,但常常可以被人类评估者发现。