算法推理方面的 ChatGPT 基准测试
本文对 ChatGPT 的编码能力进行全面评估,重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现,包括解决问题的能力、代码质量和运行时错误性质,探究了其对训练数据的直接记忆现象,并在各个子主题和难度不等的问题上与人类表现进行对比研究。
Jul, 2023
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力,发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5%,而在未给定全部必要数据的实际问题上的准确率下降至 8.3%。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示,并为人工智能的优势和局限性提供了见解,对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。
Oct, 2023
本研究使用 GHOSTS 数据集评估了 ChatGPT 的数学能力和其他训练过数学语料库的模型相比,发现其数学能力显著低于普通数学研究生,并强调 GHOSTS 数据集的重要性以及未来大型语言模型在高级数学理解方面的比较研究。
Jan, 2023
本研究论文讨论了将人工智能用于高等教育中的教学与学习,并以 ChatGPT 作为工具,以计算机科学基础编程课程为例进行了教学和评估的探讨,结果显示使用 ChatGPT 的学生在得分上有优势,但提交的代码存在不一致和不准确的情况。
Apr, 2023
本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力,并发现 ChatGPT 能够独立解决一部分编程问题,但在复杂任务上遇到困难,结果为编程教育中应用 AI 工具的效用问题提供了新的观点。
Dec, 2023
本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4),并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估,并使用基于专家的注释进行评估。结果表明,GPT-4 明显优于 ChatGPT,并在某些场景下接近人类导师的表现,但在某些情况下仍表现不佳。
Jun, 2023
本研究旨在探究 ChatGPT 在贝叶斯推理中的数学问题解决能力。研究灵感源自 2006 年 Zhu 和 Gigerenzer 的研究,提出了一个问题:儿童能以贝叶斯方式进行推理吗?通过一组 10 个贝叶斯推理问题的实验,结果揭示了儿童有效运用贝叶斯原理进行推理的能力取决于信息的良好结构化表示。本文将同样的一组 10 个贝叶斯推理问题提供给 ChatGPT,结果显示 ChatGPT 能够给出所有问题的正确解答。
Aug, 2023