Chat GPT 能解决语言学考试吗?
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
本文旨在评估人工智能工具 ChatGPT 在计算机工程学科中的表现;研究发现它可以回答关于概念的问题,但由于它是一种文字工具,所以无法处理需要用到图表和手工实验的问题。
Mar, 2023
本研究旨在探讨 ChatGPT 和 GPT-4 在金融文本分析中的应用潜力,发现它们在数字推理任务上表现出色,但在需要领域特定知识的任务(如金融命名实体识别和情感分析)上表现糟糕。该研究比较了这两个模型与业界最佳现成模型和领域特定生成模型的优劣,希望为理解现有模型的能力和促进进一步改进提供基础研究。
May, 2023
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023
通过分析大型语言模型(LLMs)与入门级编程学生的交互,我们了解到了学生们与 ChatGPT-3.5 等相关工具的互动情况,这将对未来的高等教育入门级编程课程的教学实践和指导产生积极影响。
May, 2024
本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力,发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5%,而在未给定全部必要数据的实际问题上的准确率下降至 8.3%。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示,并为人工智能的优势和局限性提供了见解,对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。
Oct, 2023
我们评估了 ChatGPT(2023 年 2 月版本),即一个大规模语言模型,在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习,这些练习被用来测试马德里市 Rey Juan Carlos 大学(URJC)的学生。我们对 ChatGPT 生成的回答进行了定性评估,并根据与学生相同的标准评分。我们的结果表明,ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而,ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明,要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之,我们的结果表明,ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而,该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力,以及其在解决概率练习中的表现,显示了它们作为学习助理的潜力。
Oct, 2023
本文系统评估了 ChatGPT 在初级函数语言编程课程中的表现,证明其能够在该课程中获得 B- 的成绩,并排名为 314 名学生的第 155。作者认为 ChatGPT 对计算机科学教育的潜在益处值得探究。
Apr, 2023
大型语言模型在自然语言处理任务中表现出色,我们通过对 Chartered Financial Analyst (CFA) 考试模拟试题的全面评估,考察 ChatGPT 和 GPT-4 在金融分析方面的理解能力,包括零编程、连续思路和少量编程等场景的性能评估和限制,进而估计它们通过 CFA 考试的可能性,并提出改进策略以增强大型语言模型在金融领域的适应性。我们希望这项研究为继续改进金融推理方面的大型语言模型奠定了基础。
Oct, 2023