印尼的大型语言模型只能通过小学考试:基于 IndoMMLU 的综合测试
本研究通过分析 GPT-3.5 和 GPT-4 对 Exame Nacional do Ensino Médio 的表现以及不同提示策略的测试,旨在探讨语言模型在解决跨学科知识问题的高风险选择题方面的能力。 2022 年版的 GPT-4 with CoT 模型表现最佳,精度达到了 87%。
Mar, 2023
本文探讨了大型语言模型(LLMs)在波斯语中的有效性。研究发现,虽然 ChatGPT 和其他 LLMs 在英语中表现出色,但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究,重点评估了 GPT-3.5-turbo,同时还包括 GPT-4 和 OpenChat-3.5,以提供更全面的评估。研究结果显示,虽然 LLMs,特别是 GPT-4,在需要推理能力和对一般知识的广泛理解的任务中表现出色,但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外,研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力,这尤其值得注意,因为波斯语具有独特的字母和写作风格。
Apr, 2024
这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现,并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。
May, 2024
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023
这篇论文在应用科学大专的计算机科学学士学位课程中研究了不同大型语言模型的表现和效果,发现当前的大型语言模型在不同计算机科学领域表现出色,但由于数学计算方面的限制,即使是 GPT-4.0 也无法通过该课程。
Jul, 2023
论文提出了一种新的测试方法,以测量文本模型的多任务准确性,涵盖了包括数学、历史、计算机科学、法律等 57 项任务,为了达到高准确性,模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度,我们的测试可以用于分析许多任务中的模型并确定重要的缺陷。
Sep, 2020
该研究对基于 GPT-4 模型的 Python 编程自动测试提供了详细的分析和实验结果,这表明自然语言处理技术在编程教育类中有很大的潜力,并且给程序设计教育提出了新的问题。
Jun, 2023
本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异,探讨了 LLMs 的跨语言概括现象,结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。
May, 2023
该论文介绍了一种利用人类考试题目来全面评估大型语言模型(LLMs)的基准测试 M3Exam,该测试具有多语言、多模态和多级结构的特点,在低资源和非拉丁语文本方面,当前模型(包括 GPT-4)仍然难以应对多语言文本,同时多模态 LLMs 在复杂多模态问题上表现不佳。
Jun, 2023
使用 LLMs(如 GPT-4)进行原生语言识别(NLI)的实验结果表明,GPT 模型在 NLI 分类上表现出色,在零样本设置下取得了 91.7%的性能记录。与以往的完全监督设置不同,LLMs 可以在无需限制于已知类别的情况下执行 NLI,这在实际应用中具有实际意义。此外,LLMs 还能提供选择的理由,根据拼写错误、句法模式和直接翻译的语言模式进行推理。
Dec, 2023