人类仍优于 ChatGPT:以 IEEEXtreme 竞赛为例
本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力,并发现 ChatGPT 能够独立解决一部分编程问题,但在复杂任务上遇到困难,结果为编程教育中应用 AI 工具的效用问题提供了新的观点。
Dec, 2023
ChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中,通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较,共收集了 300 个数据点。研究发现,尽管 AI 生成的作品接近于大学生的质量,但常常可以被人类评估者发现。
Mar, 2024
本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4),并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估,并使用基于专家的注释进行评估。结果表明,GPT-4 明显优于 ChatGPT,并在某些场景下接近人类导师的表现,但在某些情况下仍表现不佳。
Jun, 2023
本文通过收集并比对来自不同领域的问题,得出了 Human ChatGPT Comparison Corpus (HC3) 数据集,并评估了与人类专家相比 ChatGPT 的回答特点和差异,还提出了未来 LLMs 的研究方向,最终建立了三个不同的检测系统以检测 ChatGPT 的生成文本。
Jan, 2023
本文通过对比软件工程师和人工智能系统(如 ChatGPT)在不同评价指标下的性能表现,探讨了它们各自的任务适用性,以促进人机协作、提高 AI 方法的可靠性和理解,以及实现协作工作结构和人在循环过程。
May, 2023
ChatGPT 参加了计算机科学算法与数据结构的本科考试并取得 20.5 分的好成绩,但这并不意味着 ChatGPT 理解了计算机科学;同时,使用 GPT-4 的性能比 GPT-3.5 高出 17%,可以达到平均学生的水平。
Mar, 2023
ChatGPT 是一种显著的大型语言模型,通过与人类程序员进行比较,本文提出了对其代码生成能力的综合评估。通过构建一个包含 5 个类别的新颖数据集,共计 131 个代码生成提示,ChatGPT 和人类程序员生成了 262 个代码样例。使用 14 个已建立的代码质量度量方法进行详细的手动评估,重点评估了正确性、可理解性和安全性。关键发现揭示了 ChatGPT 在制作简洁高效、具有高级结构的代码方面的优势,并展示了在数据分析任务(93.1% 准确度)中的强项,但在视觉图形方面存在局限性。与人类代码的比较分析凸显了 ChatGPT 对模块化设计和优秀的错误处理的倾向。此外,机器学习模型可以有效地区分 ChatGPT 和人类代码,准确率高达 88%,表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了 ChatGPT 的代码生成能力和局限性,为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此 https URL 上找到。
Nov, 2023
本研究论文讨论了将人工智能用于高等教育中的教学与学习,并以 ChatGPT 作为工具,以计算机科学基础编程课程为例进行了教学和评估的探讨,结果显示使用 ChatGPT 的学生在得分上有优势,但提交的代码存在不一致和不准确的情况。
Apr, 2023
本文旨在评估人工智能工具 ChatGPT 在计算机工程学科中的表现;研究发现它可以回答关于概念的问题,但由于它是一种文字工具,所以无法处理需要用到图表和手工实验的问题。
Mar, 2023
本文探讨了 ChatGPT 在科学写作、数学、教育、编程和医疗保健等不同领域作为自动化助手的能力,重点介绍了其增强生产力、简化解决问题流程和提高写作风格的潜力以及与过度依赖 ChatGPT 可能带来的潜在风险,而作者提出了使用流程建议,对输出进行独立验证,并建议专家使用该工具。
Jun, 2023