计算机科学学位项目中大型语言模型的表现
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
该研究对基于 GPT-4 模型的 Python 编程自动测试提供了详细的分析和实验结果,这表明自然语言处理技术在编程教育类中有很大的潜力,并且给程序设计教育提出了新的问题。
Jun, 2023
本研究采用了学生至上的方法,通过学生调查和访谈以全面了解计算机科学本科生如何使用 ChatGPT,这是由 OpenAI 发布的一种流行的大型语言模型。研究发现,大多数学生对 ChatGPT 在课程相关任务中的辅助性态度积极,但也发现了在学生中长期接纳 ChatGPT 所面临的各种挑战,这些发现具有更广泛的意义,并可适用于其他大型语言模型及其在计算机教育中的作用。
Nov, 2023
研究 ChatGPT 3.5 模型在编写代码方面的能力,评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度,并发现了模型的主要意外行为和限制,旨在寻找发展的潜在领域,并检查自动生成代码对编程语言和技术行业发展的影响。
Aug, 2023
本文对 ChatGPT 和 GPT-4 进行了综合调查,分析了其在各领域的潜在应用,发现 ChatGPT/GPT-4 主要应用于自然语言处理,并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。
Apr, 2023
我们评估了 ChatGPT(2023 年 2 月版本),即一个大规模语言模型,在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习,这些练习被用来测试马德里市 Rey Juan Carlos 大学(URJC)的学生。我们对 ChatGPT 生成的回答进行了定性评估,并根据与学生相同的标准评分。我们的结果表明,ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而,ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明,要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之,我们的结果表明,ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而,该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力,以及其在解决概率练习中的表现,显示了它们作为学习助理的潜力。
Oct, 2023
本文探讨了大型语言模型(LLMs)在波斯语中的有效性。研究发现,虽然 ChatGPT 和其他 LLMs 在英语中表现出色,但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究,重点评估了 GPT-3.5-turbo,同时还包括 GPT-4 和 OpenChat-3.5,以提供更全面的评估。研究结果显示,虽然 LLMs,特别是 GPT-4,在需要推理能力和对一般知识的广泛理解的任务中表现出色,但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外,研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力,这尤其值得注意,因为波斯语具有独特的字母和写作风格。
Apr, 2024
本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用,通过评估话语建模的能力,比较它与商业翻译系统和高级文档级机器翻译方法的性能,发现 Chat-GPT 在人类评估方面表现优异,同时揭示了话语建模的挑战和机遇。
Apr, 2023
本文研究大型语言模型(LLMs)对人工智能研究的影响。通过以 GPT3.5 / ChatGPT3.4 和 ChatGPT 4 为例,我们展示这些模型具有什么样的功能,并且这些模型令人们瞩目的领域覆盖速度证明了这个趋势正在逐渐变成实现通用智能的强劲迹象。这些模型的创新也将随着这些人工智能系统的成熟而扩大,并将展示出在我们社会的多个方面具有重要影响的不可预见的应用。
May, 2023
本文对 ChatGPT 的编码能力进行全面评估,重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现,包括解决问题的能力、代码质量和运行时错误性质,探究了其对训练数据的直接记忆现象,并在各个子主题和难度不等的问题上与人类表现进行对比研究。
Jul, 2023