Dec, 2023

通过专业测试评估人工智能职业技能

TL;DR通过一项新型的专业认证调查,本研究重点评估了两个引用率较高的 AI 模型 GPT-3 和 Turbo-GPT3.5 的职业技能。该研究强调实践准备的重要性,通过考察模型在由 1149 个专业认证组成的基准数据集上的表现,与人类测试成绩进行比较,从而提供了 AI 模型在专业认证方面与甚至超过人类表现的潜力的视角。GPT-3 甚至在没有任何微调或考试准备的情况下,在 39% 的专业认证中获得了及格分数(超过 70% 的正确率),并在云计算与虚拟化、业务分析、网络设置和修复以及数据分析等计算机相关领域展示了熟练程度。另一方面,Turbo-GPT3.5 在备受推崇的 Offensive Security Certified Professional (OSCP) 考试上获得了满分的 100%。该模型还展示了在护理、许可咨询、药剂和航空等多个专业领域的能力。Turbo-GPT3.5 在客户服务任务上表现出色,表明在增强呼叫中心的聊天机器人和日常咨询服务方面具有潜在应用场景。两个模型在机器传统角色之外的感官和基于经验的测试中也表现良好,包括品酒师、啤酒品尝、情商以及身体语言解读。研究发现,OpenAI 从 Babbage 到 Turbo 的模型改进使得评分标准的性能提升了 60%。这一进展表明,解决现有模型的局限性可能会产生能够通过最严格的专业认证的 AI。