评估人工智能聊天机器人在综合标准化考试准备中的表现：以 GRE 为例的案例研究

Nov, 2023

评估人工智能聊天机器人在综合标准化考试准备中的表现：以 GRE 为例的案例研究

Assessing AI Chatbots Performance in Comprehensive Standardized Test Preparation; A Case Study with GRE

Mohammad Abu-Haifa, Bara'a Etawi, Huthaifa Alkhatatbeh, Ayman Ababneh

TL;DR本研究论文评估了三个人工智能聊天机器人（Bing、ChatGPT 和 GPT-4）在应对标准化考试问题方面的性能，以 GRE 作为案例研究，包括定量推理和语言技能。对 137 道定量推理问题和 157 道语言问题进行了综合评估，结果表明不同聊天机器人在不同技能和风格的考试中的表现存在差异，GPT-4 在复杂语言理解任务方面表现最好，彰显了人工智能在语言理解上的进化和在考试中获得高分的能力。

Abstract

This research paper presents a comprehensive evaluation of the performance of three artificial 10 intelligence chatbots: Bing, ChatGPT, and GPT-4, in addressing standardized test questions. Graduate record examin

artificial intelligence chatbots standardized test performance evaluation language comprehension

发现论文，激发创造

ChatGPT 在标准化考试中的表现 -- 学习者的一种拟议策略

ChatGPT 在标准化考试准备中的问题解决能力及其潜在应用进行了探索，重点关注 GRE 数学考试。本研究调查了 ChatGPT 在 GRE 数量领域的不同问题类型上的表现，并研究了修改问题提示对其准确性的影响。研究结果表明，在对原始问题使用指令引导和上下文提示后，ChatGPT 的准确性有了统计上的改进。与原始数据 69% 的准确率相比，修改后的提示下 ChatGPT 的准确率达到了 84%。研究讨论了 ChatGPT 在某些问题上的困难之处以及提示修改对于 GRE 等标准化考试准备的帮助，并提供了未来的研究方向。

Sep, 2023

聊天机器人在数学和逻辑问题中的应用：ChatGPT-3.5、ChatGPT-4 和 Google Bard 的初步比较和评估

对基于大型语言模型的三个聊天机器人（ChatGPT-3.5、ChatGPT-4 和 Google Bard）进行了比较，重点关注它们解决数学和逻辑问题的能力，并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题，聊天机器人可能会提供准确的解决方案，但对于更复杂的数学问题或高级逻辑任务，它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5，而 Bard 在 Set B 中表现最好。

May, 2023

ChatGPT 在美国工程基础考试中的表现：对熟练程度的全面评估和对环境工程实践的潜在影响

本文介绍了使用基于 GPT-4 的 ChatGPT 模型进行工程基础考试的可行性和有效性，并通过非侵入式提示修改实现了模型的显著精度提升。该研究进一步探讨了复杂工程问题的解决方案，并强调了 AI 在教育领域中的挑战，如如何实现 AI 对不同种族和背景学生的包容性和无歧视性。

Apr, 2023

聊天机器人对话回应的评分

在本文中，我们通过提交 60 个提问并基于三项机器翻译评分标准（BLEU，METEOR 和 ROUGE）对 ChatGPT 的回答进行了分析，结果显示出与人类典型反应相比，ChatGPT 在回复和翻译方面的能力虽然显著，但仍有所欠缺。

Feb, 2023

GPTEval: ChatGPT 和 GPT-4 评估调查

对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究，包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。

Aug, 2023

AI 洞察：利用 ChatGPT 智能进行研究论文分析的案例研究

使用 ChatGPT 3.5 和 4 对研究论文进行分析以提高科学文献调查的有效性，选择 “人工智能在乳腺癌治疗中的应用” 作为研究主题，使用 ChatGPT 模型自动识别相关论文、对论文按范围进行组织和确定调查论文的关键信息，结果显示 GPT-4 能以 77.3% 准确率识别研究论文类别，50% 的论文的范围能被 GPT-4 正确识别，且 67% 的模型给出的原因是专家完全同意的。

Mar, 2024

生成 AI 和 ChatGPT 能否在科学上的高认知需求问题解决任务中超越人类？

研究人工智能工具对比了 ChatGPT 和 GPT-4 在 2019 年 NAEP 科学评估中的表现，结果显示这两个工具优于大多数学生，暗示需要改变教育目标以培养学生与 GAI 工具一起工作的能力，强调培养高级认知技能，避免对测试效率产生负面影响。

Jan, 2024

基于 ChatGPT 作弊的测试题漏洞研究

ChatGPT 对测试问题的回答质量以及如何检测测试问题是否可由 ChatGPT 正确回答的方法是本研究的重要问题。我们通过对 MedMCQA 数据集中的问题生成 ChatGPT 的回答，并分析了不同类型问题中 ChatGPT 回答准确度较低的情况。此外，我们还开发了一个基本的自然语言处理模型，用于在一组问题或样本考试中识别出对 ChatGPT 最容易攻击的问题。这个工具可以帮助考试制作者避免出现易受 ChatGPT 攻击的测试问题。

Feb, 2024

ChatGPT 能否通过越南高中毕业考试？

研究探讨了聊天机器人在教育中的潜力，使用大型自然语言模型 ChatGPT 进行了越南高中毕业考试的实验，并展示了模型在文学、数学、英语、物理、化学、生物、历史、地理和公民教育等多个科目上的良好表现，表明人工智能工具在教育领域中的应用前景广阔。

Jun, 2023

ChatGPT 与机械工程：在 FE 机械工程和本科考试中的表现分析

本研究探讨了 ChatGPT 在机械工程学科中的能力，并通过使用大学提供的初级和高级机械工程考试题目以及机械工程基础考试（FE）的模拟题目，分析了两个 ChatGPT 模型的回答。结果发现，付费订阅模型（GPT-4）在正确率上远远超过免费版本（GPT-3.5），但由于两个模型仅支持文本输入，因此都不太可能通过 FE 考试。研究结果确认了 ChatGPT 在文献中关于错误类型和陷阱的发现，其最适合具有专业知识的用户使用。

Sep, 2023