通过专业测试评估人工智能职业技能

Dec, 2023

通过专业测试评估人工智能职业技能

Evaluating AI Vocational Skills Through Professional Testing

David Noever, Matt Ciolino

TL;DR通过一项新型的专业认证调查，本研究重点评估了两个引用率较高的 AI 模型 GPT-3 和 Turbo-GPT3.5 的职业技能。该研究强调实践准备的重要性，通过考察模型在由 1149 个专业认证组成的基准数据集上的表现，与人类测试成绩进行比较，从而提供了 AI 模型在专业认证方面与甚至超过人类表现的潜力的视角。GPT-3 甚至在没有任何微调或考试准备的情况下，在 39% 的专业认证中获得了及格分数（超过 70% 的正确率），并在云计算与虚拟化、业务分析、网络设置和修复以及数据分析等计算机相关领域展示了熟练程度。另一方面，Turbo-GPT3.5 在备受推崇的 Offensive Security Certified Professional (OSCP) 考试上获得了满分的 100%。该模型还展示了在护理、许可咨询、药剂和航空等多个专业领域的能力。Turbo-GPT3.5 在客户服务任务上表现出色，表明在增强呼叫中心的聊天机器人和日常咨询服务方面具有潜在应用场景。两个模型在机器传统角色之外的感官和基于经验的测试中也表现良好，包括品酒师、啤酒品尝、情商以及身体语言解读。研究发现，OpenAI 从 Babbage 到 Turbo 的模型改进使得评分标准的性能提升了 60%。这一进展表明，解决现有模型的局限性可能会产生能够通过最严格的专业认证的 AI。

Abstract

Using a novel professional certification survey, the study focuses on assessing the vocational skills of two highly cited ai models, GPT-3 and tu

ai models professional certifications vocational skills turbo-gpt3.5 model improvement

发现论文，激发创造

专业认证基准数据集：大型语言模型的前 500 个职位

该研究设计了一个专业认证测试来评估大型语言模型的雇佣能力并比较了两个 AI 模型， GPT-3 和 Turbo-GPT3.5，该模型在 1149 个专业证书的基准数据集上表现出各种计算机相关领域的资格，模型的进步表明关注最新模型的缺点可能会引领人工智能技术超脱对最苛刻的职业认证的挑战。

May, 2023

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

GPT 作为知识工作者：对（AI）CPA 能力的零 - shot 评估

本文研究了 text-davinci-003 和不同版本的 GPT-3 的表现，发现大语言模型有潜力提升未来知识工作的质量和效率。

Jan, 2023

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023

通过 Codewars 的 Katas 评估 GPT 的编程能力

本研究评估了 GPT-3.5 和 GPT-4 编程模型的编程熟练度，这些模型对于不同难度级别的编程问题的求解存在明显的局限性，作者提出了一个融合了问题难度和解题时间的编程问题复杂性度量标准，并强调了需要在 AI 模型中加入验证和创造性思维能力以更好地模拟人类问题解决技术的必要性。

May, 2023

测试 GPT-3 的创造力（替代用途）

我们评估了 Open AI 的生成式自然语言模型 GPT-3 在 Guilford 的替代用途测试中的创造力，结果显示人类目前在创造性输出方面表现优于 GPT-3，但我们相信这只是时间问题。

Jun, 2022

大学级编程课中人类、GPT-3.5 和 GPT-4 的性能比较

ChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中，通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较，共收集了 300 个数据点。研究发现，尽管 AI 生成的作品接近于大学生的质量，但常常可以被人类评估者发现。

Mar, 2024

人工智能心理学的 “正确答案

在该研究中，我们使用 OpenAI 的 text-davinci-003 模型，即 GPT3.5，重复了 Many Labs 2 重复项目中的 14 项研究，其中我们的 GPT 样本在八项研究中复制了 37.5％的原始结果和 Many Labs 2 结果的 37.5％。然而，我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应，这引发了对未来 AI 领域可能存在思想多样性降低的担忧。

Feb, 2023

AI 辅助编码：GPT-4 实验

本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Apr, 2023

ChatGPT 自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023