大型语言模型在本科入学考试中的西班牙语性能评估

Dec, 2023

大型语言模型在本科入学考试中的西班牙语性能评估

Evaluating the Performance of Large Language Models for Spanish Language in Undergraduate Admissions Exams

Sabino Miranda, Obdulia Pichardo-Lagunas, Bella Martínez-Seis, Pierre Baldi

TL;DR该研究评估了大型语言模型 (具体为 GPT-3.5 和 BARD) 在墨西哥国立理工学院提出的本科入学考试中的表现。这些考试涵盖了工程 / 数学和物理科学、生物和医学科学以及社会和行政科学。两个模型在不同的学术专业中表现出了一定的熟练程度，有些学术专业的最低录取分数都被超过了 75%。GPT-3.5 在数学和物理方面表现优于 BARD，而在历史和事实信息相关问题上，BARD 的表现较好。总体而言，GPT-3.5 的得分稍微超过了 BARD，分别为 60.94% 和 60.42%。

Abstract

This study evaluates the performance of large language models, specifically gpt-3.5 and bard (supported by Gemini Pro model), in undergrad

large language models gpt-3.5 bard undergraduate admissions exams academic programs

发现论文，激发创造

计算机科学学位项目中大型语言模型的表现

这篇论文在应用科学大专的计算机科学学士学位课程中研究了不同大型语言模型的表现和效果，发现当前的大型语言模型在不同计算机科学领域表现出色，但由于数学计算方面的限制，即使是 GPT-4.0 也无法通过该课程。

Jul, 2023

评估 GPT-3.5 和 GPT-4 模型在巴西大学入学考试中的表现

本研究通过分析 GPT-3.5 和 GPT-4 对 Exame Nacional do Ensino Médio 的表现以及不同提示策略的测试，旨在探讨语言模型在解决跨学科知识问题的高风险选择题方面的能力。 2022 年版的 GPT-4 with CoT 模型表现最佳，精度达到了 87％。

Mar, 2023

专业认证基准数据集：大型语言模型的前 500 个职位

该研究设计了一个专业认证测试来评估大型语言模型的雇佣能力并比较了两个 AI 模型， GPT-3 和 Turbo-GPT3.5，该模型在 1149 个专业证书的基准数据集上表现出各种计算机相关领域的资格，模型的进步表明关注最新模型的缺点可能会引领人工智能技术超脱对最苛刻的职业认证的挑战。

May, 2023

Bard 和 ChatGPT 在十种阿拉伯语方言机器翻译中的评估

综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力，发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战，尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言，但对更普遍的方言表现令人满意，虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言，现有的大型语言模型在包容性方面仍有待改进，仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。

Aug, 2023

GPT-4 通过 297 个波兰书面理事会认证考试

通过在 297 个考试中测试 Generative Pretrained Transformer（GPT）模型的性能，研究结果显示 GPT-3.5 没有通过任何考试，而最新的模型 gpt-4-0125 成功通过了 222 个考试（75%）。此研究对于波兰的大型语言模型在医学考试中的性能评估展示了巨大的进展，并展望了将 AI 应用于医疗领域的前景，例如开发基于 AI 的医疗助手来提高医疗服务的效率和准确性。

Apr, 2024

大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

我们评估了 ChatGPT（2023 年 2 月版本），即一个大规模语言模型，在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习，这些练习被用来测试马德里市 Rey Juan Carlos 大学（URJC）的学生。我们对 ChatGPT 生成的回答进行了定性评估，并根据与学生相同的标准评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而，ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明，要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而，该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力，以及其在解决概率练习中的表现，显示了它们作为学习助理的潜力。

Oct, 2023

波斯语大型语言模型基准测试：关注 ChatGPT 的初步研究

本文探讨了大型语言模型（LLMs）在波斯语中的有效性。研究发现，虽然 ChatGPT 和其他 LLMs 在英语中表现出色，但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究，重点评估了 GPT-3.5-turbo，同时还包括 GPT-4 和 OpenChat-3.5，以提供更全面的评估。研究结果显示，虽然 LLMs，特别是 GPT-4，在需要推理能力和对一般知识的广泛理解的任务中表现出色，但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外，研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力，这尤其值得注意，因为波斯语具有独特的字母和写作风格。

Apr, 2024

大型语言模型在 VNHSGE 英语数据集上的性能比较：OpenAI ChatGPT、Microsoft Bing Chat 和 Google Bard

该论文比较了三种大型语言模型，OpenAI ChatGPT、微软 Bing Chat 和谷歌 Bard，在 VNHSGE 英语数据集上的性能，结果显示 BingChat 优于 ChatGPT 和 Bard。这项研究的结果有助于理解大型语言模型在英语教育中的潜力。

Jul, 2023

评估大型语言模型在 GMAT 上的表现：对商业教育未来的影响

该研究介绍了一项评估七种主要大型语言模型（LLMs）在商业教育领域的性能的基准测试，同时研究还证明了大多数 LLMs 在 GMAT 考试中的出色表现，特别是 GPT-4 Turbo 超越了研究生和商学院的平均分数。此研究确定了人工智能在教育领域的潜力，并强调了在发展和应用人工智能时的一些挑战和需求。

Jan, 2024

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023