Chat GPT 能解决语言学考试吗？

Nov, 2023

Can Chat GPT solve a Linguistics Exam?

Patricia Ronan, Gerold Schneider

TL;DR研究通过使用 ChatGPT4，即使用语言模型 GPT4 的 ChatGPT 的版本，评估其是否能够成功解决介绍性语言学考试。结果表明，该语言模型在解释复杂且嵌套的任务方面非常成功，但在分析形态和短语方面表现较差。在简单情况下，其表现尚可，但对于罕见的缺少一对一对应关系的情况，结果则不尽相同。该模型尚不能处理诸如分析或生成语法树等可视化任务，但通过对这些任务进行更广泛的预处理，将其转化为文本数据，可以成功解决这些任务。

Abstract

The present study asks if chatgpt4, the version of ChatGPT which uses the language model GPT4, can successfully solve introductory linguistic exa

chatgpt4 linguistic exams language model phonetic transcription morphemes

发现论文，激发创造

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

ChatGPT 是否是通用自然语言处理任务解决方案？

本文通过对 20 个流行的任务数据集进行评估，就 ChatGPT 的零 - shot 学习能力进行了实证分析，并发现它在推理能力较强的任务上表现良好，如算术推理，但在特定任务（如序列标记）的解决方面仍面临挑战。

Feb, 2023

分析 ChatGPT 在计算机工程导论课程中的适应能力

本文旨在评估人工智能工具 ChatGPT 在计算机工程学科中的表现；研究发现它可以回答关于概念的问题，但由于它是一种文字工具，所以无法处理需要用到图表和手工实验的问题。

Mar, 2023

ChatGPT 和 GPT-4 是否能够作为金融文本分析的通用求解器？对几个典型任务的考察

本研究旨在探讨 ChatGPT 和 GPT-4 在金融文本分析中的应用潜力，发现它们在数字推理任务上表现出色，但在需要领域特定知识的任务（如金融命名实体识别和情感分析）上表现糟糕。该研究比较了这两个模型与业界最佳现成模型和领域特定生成模型的优劣，希望为理解现有模型的能力和促进进一步改进提供基础研究。

May, 2023

ChatGPT 在语言使用上是否与人类相似？

通过 12 个预注册的实验，我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理，但是他们在一些方面与人类处理方式存在差异，并且可能通过 Transformer 架构来解释这些差异。

Mar, 2023

分析使用 ChatGPT 解决入门编程任务的初学者程序员的聊天协议

通过分析大型语言模型（LLMs）与入门级编程学生的交互，我们了解到了学生们与 ChatGPT-3.5 等相关工具的互动情况，这将对未来的高等教育入门级编程课程的教学实践和指导产生积极影响。

May, 2024

探讨 ChatGPT 在科学与工程问题解决中的潜力和问题

本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力，发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5％，而在未给定全部必要数据的实际问题上的准确率下降至 8.3％。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示，并为人工智能的优势和局限性提供了见解，对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。

Oct, 2023

大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

我们评估了 ChatGPT（2023 年 2 月版本），即一个大规模语言模型，在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习，这些练习被用来测试马德里市 Rey Juan Carlos 大学（URJC）的学生。我们对 ChatGPT 生成的回答进行了定性评估，并根据与学生相同的标准评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而，ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明，要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而，该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力，以及其在解决概率练习中的表现，显示了它们作为学习助理的潜力。

Oct, 2023

ChatGPT 能否通过入门级函数式编程课程？

本文系统评估了 ChatGPT 在初级函数语言编程课程中的表现，证明其能够在该课程中获得 B- 的成绩，并排名为 314 名学生的第 155。作者认为 ChatGPT 对计算机科学教育的潜在益处值得探究。

Apr, 2023

GPT 模型能否成为金融分析师？对 ChatGPT 和 GPT-4 在模拟 CFA 考试中的评估

大型语言模型在自然语言处理任务中表现出色，我们通过对 Chartered Financial Analyst (CFA) 考试模拟试题的全面评估，考察 ChatGPT 和 GPT-4 在金融分析方面的理解能力，包括零编程、连续思路和少量编程等场景的性能评估和限制，进而估计它们通过 CFA 考试的可能性，并提出改进策略以增强大型语言模型在金融领域的适应性。我们希望这项研究为继续改进金融推理方面的大型语言模型奠定了基础。

Oct, 2023