人类仍优于 ChatGPT：以 IEEEXtreme 竞赛为例

May, 2023

人类仍优于 ChatGPT：以 IEEEXtreme 竞赛为例

Humans are Still Better than ChatGPT: Case of the IEEEXtreme Competition

Anis Koubaa, Basit Qureshi, Adel Ammar, Zahid Khan, Wadii Boulila...

TL;DR本篇论文通过 IEEExtreme 挑战赛的实验数据分析，来证明 ChatGPT 在程序设计中的实现能力与人类相比存在劣势。同时，论文提出了 AI 语言模型的局限性与可能的改进方向。

Abstract

Since the release of chatgpt, numerous studies have highlighted the remarkable performance of chatgpt, which often rivals or even surpasses human capabilities in various tasks and domains. However, this paper pre

chatgpt human performance ieeextreme challenge programming ai-based language models

发现论文，激发创造

Kattis 与 ChatGPT：人工智能时代编程任务的评估与评价

本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力，并发现 ChatGPT 能够独立解决一部分编程问题，但在复杂任务上遇到困难，结果为编程教育中应用 AI 工具的效用问题提供了新的观点。

Dec, 2023

大学级编程课中人类、GPT-3.5 和 GPT-4 的性能比较

ChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中，通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较，共收集了 300 个数据点。研究发现，尽管 AI 生成的作品接近于大学生的质量，但常常可以被人类评估者发现。

Mar, 2024

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023

ChatGPT 与人类专家的接近程度有多高？对比语料库、评估和检测

本文通过收集并比对来自不同领域的问题，得出了 Human ChatGPT Comparison Corpus (HC3) 数据集，并评估了与人类专家相比 ChatGPT 的回答特点和差异，还提出了未来 LLMs 的研究方向，最终建立了三个不同的检测系统以检测 ChatGPT 的生成文本。

Jan, 2023

使用 ChatGPT 进行软件开发人员比较：实证调查

本文通过对比软件工程师和人工智能系统（如 ChatGPT）在不同评价指标下的性能表现，探讨了它们各自的任务适用性，以促进人机协作、提高 AI 方法的可靠性和理解，以及实现协作工作结构和人在循环过程。

May, 2023

ChatGPT 参加计算机科学考试

ChatGPT 参加了计算机科学算法与数据结构的本科考试并取得 20.5 分的好成绩，但这并不意味着 ChatGPT 理解了计算机科学；同时，使用 GPT-4 的性能比 GPT-3.5 高出 17％，可以达到平均学生的水平。

Mar, 2023

评估 ChatGPT 在自动代码生成中的优势和局限性

ChatGPT 是一种显著的大型语言模型，通过与人类程序员进行比较，本文提出了对其代码生成能力的综合评估。通过构建一个包含 5 个类别的新颖数据集，共计 131 个代码生成提示，ChatGPT 和人类程序员生成了 262 个代码样例。使用 14 个已建立的代码质量度量方法进行详细的手动评估，重点评估了正确性、可理解性和安全性。关键发现揭示了 ChatGPT 在制作简洁高效、具有高级结构的代码方面的优势，并展示了在数据分析任务（93.1% 准确度）中的强项，但在视觉图形方面存在局限性。与人类代码的比较分析凸显了 ChatGPT 对模块化设计和优秀的错误处理的倾向。此外，机器学习模型可以有效地区分 ChatGPT 和人类代码，准确率高达 88%，表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了 ChatGPT 的代码生成能力和局限性，为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此 https URL 上找到。

Nov, 2023

探索 ChatGPT 在本科计算机科学课程中作为学习和评估工具的应用：机遇与挑战

本研究论文讨论了将人工智能用于高等教育中的教学与学习，并以 ChatGPT 作为工具，以计算机科学基础编程课程为例进行了教学和评估的探讨，结果显示使用 ChatGPT 的学生在得分上有优势，但提交的代码存在不一致和不准确的情况。

Apr, 2023

分析 ChatGPT 在计算机工程导论课程中的适应能力

本文旨在评估人工智能工具 ChatGPT 在计算机工程学科中的表现；研究发现它可以回答关于概念的问题，但由于它是一种文字工具，所以无法处理需要用到图表和手工实验的问题。

Mar, 2023

ChatGPT 是专家们的杰出工具

本文探讨了 ChatGPT 在科学写作、数学、教育、编程和医疗保健等不同领域作为自动化助手的能力，重点介绍了其增强生产力、简化解决问题流程和提高写作风格的潜力以及与过度依赖 ChatGPT 可能带来的潜在风险，而作者提出了使用流程建议，对输出进行独立验证，并建议专家使用该工具。

Jun, 2023