算法推理方面的 ChatGPT 基准测试

Apr, 2024

Benchmarking ChatGPT on Algorithmic Reasoning

Sean McLeish, Avi Schwarzschild, Tom Goldstein

TL;DRChatGPT 在 CLRS 基准套件中评估其解决算法问题的能力，结果表明 ChatGPT 能够使用 Python 优于专用的 GNN 模型成功解决这些问题，为关于使用神经网络学习算法的讨论提出了新的观点。

Abstract

We evaluate chatgpt's ability to solve algorithm problems from the CLRS benchmark suite that is designed for gnns. The benchmark requires

chatgpt algorithm problems clrs benchmark suite gnns learning algorithms

发现论文，激发创造

揭示巨人真面目：ChatGPT 在编写算法和数据结构方面的全面评估

本文对 ChatGPT 的编码能力进行全面评估，重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现，包括解决问题的能力、代码质量和运行时错误性质，探究了其对训练数据的直接记忆现象，并在各个子主题和难度不等的问题上与人类表现进行对比研究。

Jul, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

ChatGPT 是否是通用自然语言处理任务解决方案？

本文通过对 20 个流行的任务数据集进行评估，就 ChatGPT 的零 - shot 学习能力进行了实证分析，并发现它在推理能力较强的任务上表现良好，如算术推理，但在特定任务（如序列标记）的解决方面仍面临挑战。

Feb, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

探讨 ChatGPT 在科学与工程问题解决中的潜力和问题

本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力，发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5％，而在未给定全部必要数据的实际问题上的准确率下降至 8.3％。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示，并为人工智能的优势和局限性提供了见解，对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。

Oct, 2023

ChatGPT 的数学能力

本研究使用 GHOSTS 数据集评估了 ChatGPT 的数学能力和其他训练过数学语料库的模型相比，发现其数学能力显著低于普通数学研究生，并强调 GHOSTS 数据集的重要性以及未来大型语言模型在高级数学理解方面的比较研究。

Jan, 2023

探索 ChatGPT 在本科计算机科学课程中作为学习和评估工具的应用：机遇与挑战

本研究论文讨论了将人工智能用于高等教育中的教学与学习，并以 ChatGPT 作为工具，以计算机科学基础编程课程为例进行了教学和评估的探讨，结果显示使用 ChatGPT 的学生在得分上有优势，但提交的代码存在不一致和不准确的情况。

Apr, 2023

Kattis 与 ChatGPT：人工智能时代编程任务的评估与评价

本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力，并发现 ChatGPT 能够独立解决一部分编程问题，但在复杂任务上遇到困难，结果为编程教育中应用 AI 工具的效用问题提供了新的观点。

Dec, 2023

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023

基于贝叶斯的 ChatGPT 人工智能大脑

本研究旨在探究 ChatGPT 在贝叶斯推理中的数学问题解决能力。研究灵感源自 2006 年 Zhu 和 Gigerenzer 的研究，提出了一个问题：儿童能以贝叶斯方式进行推理吗？通过一组 10 个贝叶斯推理问题的实验，结果揭示了儿童有效运用贝叶斯原理进行推理的能力取决于信息的良好结构化表示。本文将同样的一组 10 个贝叶斯推理问题提供给 ChatGPT，结果显示 ChatGPT 能够给出所有问题的正确解答。

Aug, 2023