ChatGPT 能否通过越南高中毕业考试?
该研究对 ChatGPT 在越南高中毕业考试的数学题目中的表现进行了全面的分析,探讨了无法正确回答问题的挑战。
Jun, 2023
本文调查了两个大型语言模型(LLM),ChatGPT 和 Microsoft Bing Chat(BingChat)在越南学生中的表现。尽管 ChatGPT 在各个学科中都表现出了竞争力,但 BingChat 是更好的选择。我们比较了它们在多个科目上的表现,包括数学、文学、英语、物理、化学、生物、历史、地理和公民教育。我们的研究结果表明,BingChat 在大多数科目上优于 ChatGPT,但在文学方面 ChatGPT 的表现更好。此外,BingChat 利用比 ChatGPT 更先进的 GPT-4 技术,从而增强了对创造性和信息性文本的理解和生成。此外,BingChat 在越南可获得且答案中包含超链接,进一步巩固了其优越性。我们结论是,尽管 ChatGPT 值得称赞,但是 Bing Chat 为越南学生提供了更全面和先进的解决方案。
Jul, 2023
本文介绍了使用基于 GPT-4 的 ChatGPT 模型进行工程基础考试的可行性和有效性,并通过非侵入式提示修改实现了模型的显著精度提升。该研究进一步探讨了复杂工程问题的解决方案,并强调了 AI 在教育领域中的挑战,如如何实现 AI 对不同种族和背景学生的包容性和无歧视性。
Apr, 2023
本研究探讨了 ChatGPT 在机械工程学科中的能力,并通过使用大学提供的初级和高级机械工程考试题目以及机械工程基础考试(FE)的模拟题目,分析了两个 ChatGPT 模型的回答。结果发现,付费订阅模型(GPT-4)在正确率上远远超过免费版本(GPT-3.5),但由于两个模型仅支持文本输入,因此都不太可能通过 FE 考试。研究结果确认了 ChatGPT 在文献中关于错误类型和陷阱的发现,其最适合具有专业知识的用户使用。
Sep, 2023
该研究评估了 ChatGPT 作为人工智能教学和学习支持工具在一所亚洲国家的集成电路系统课程中的有效性,通过完成不同类型的问题和评估 ChatGPT 的回应来获得有价值的见解,以进一步调查。该研究的目标是评估 ChatGPT 在工程教育中提供见解、个性化支持和互动学习体验的能力。该研究包括对不同利益相关者(学生、讲师和工程师)的评估和反思。研究结果揭示了 ChatGPT 作为人工智能工具的益处和局限性,为技术学科中创新的学习方法铺平了道路。此外,该研究有助于我们对教育部门数字化转型的理解。
Nov, 2023
该论文比较了三种大型语言模型,OpenAI ChatGPT、微软 Bing Chat 和谷歌 Bard,在 VNHSGE 英语数据集上的性能,结果显示 BingChat 优于 ChatGPT 和 Bard。这项研究的结果有助于理解大型语言模型在英语教育中的潜力。
Jul, 2023
本研究评估了使用 ChatGPT 回答医学问题的可靠性,结果发现 ChatGPT 的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023
我们评估了 ChatGPT(2023 年 2 月版本),即一个大规模语言模型,在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习,这些练习被用来测试马德里市 Rey Juan Carlos 大学(URJC)的学生。我们对 ChatGPT 生成的回答进行了定性评估,并根据与学生相同的标准评分。我们的结果表明,ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而,ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明,要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之,我们的结果表明,ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而,该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力,以及其在解决概率练习中的表现,显示了它们作为学习助理的潜力。
Oct, 2023
ChatGPT 参加了计算机科学算法与数据结构的本科考试并取得 20.5 分的好成绩,但这并不意味着 ChatGPT 理解了计算机科学;同时,使用 GPT-4 的性能比 GPT-3.5 高出 17%,可以达到平均学生的水平。
Mar, 2023
ChatGPT-4 Vision 在巴西 2021 年本科国家考试中展现了优秀的视觉能力,但在问题解释、逻辑推理和视觉敏锐度方面遇到了困难,提示未来考试需要改进问题设计。研究结果表明,虽然 ChatGPT-4 Vision 在多模态学术评估中表现出潜力,但人类监督仍然至关重要,以验证模型的准确性并确保高风险教育考试的公平性。
Jun, 2024