奥林匹克竞技场奖牌排名：迄今最聪明的人工智能是谁？

Jun, 2024

奥林匹克竞技场奖牌排名：迄今最聪明的人工智能是谁？

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu

TL;DR谁是迄今为止最智能的人工智能模型？我们使用奥林匹克竞技场（一个超智能人工智能的奥林匹克级多学科多模式基准）进行评估，并提出使用奥林匹克奖牌榜来排名人工智能模型。实证结果表明：Claude-3.5-Sonnet 在各个学科具有竞争力的综合表现优于 GPT-4o，超过 GPT-4o 在物理、化学和生物学等学科。Gemini-1.5-Pro 和 GPT-4V 排名次于 GPT-4o 和 Claude-3.5-Sonnet，但它们之间存在明显的性能差距。开源社区的人工智能模型性能明显落后于专有模型。这些模型在这个基准上的表现不尽人意，表明我们在实现超智能之前还有很长的路要走。我们致力于持续追踪和评估最新强大模型在这个基准上的表现。

Abstract

In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the olympicarena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonn

intelligent ai model olympicarena ai model ranking performance evaluation superintelligence

发现论文，激发创造

奥林匹克竞技场：对超智能人工智能的多学科认知推理进行基准测试

人工智能的进化已经显著加速，主要得益于大型语言模型和大型多模态模型的进展，在问题解决和科学发现方面逐渐展现出与人类智力相当的潜在认知推理能力（即 AI4Science）。为了全面评估当前模型在认知推理能力方面的表现，我们引入了奥林匹克竞技场（OlympicArena），其中包含了 11,163 个双语问题，涵盖了文本和图像两种模态。这些挑战囊括了七个领域和 62 个国际奥林匹克竞赛的各种学科，经过严谨的数据泄露检测。我们认为，奥林匹克竞赛问题中的挑战非常适合评估 AI 的认知推理能力，因为这些问题具有复杂性和跨学科性质，对于解决复杂科学难题和促进发现非常重要。通过答案评估各学科中的表现之外，我们从多个角度进行了详细的实验和分析，深入探讨了模型的认知推理能力，它们在不同模态下的表现以及在解决长篇解答复杂推理任务中的结果。我们广泛的评估显示，即使是像 GPT-4o 这样的先进模型也只能达到 39.97% 的整体准确率，这说明当前人工智能在复杂推理和多模态整合方面存在局限性。通过奥林匹克竞技场，我们旨在推进人工智能走向超级智能，使其能够应对更复杂的科学和其他挑战。我们还提供了一套全面的资源来支持人工智能研究，包括基准数据集、开源注释平台、详细评估工具和带有自动提交功能的排行榜。

Jun, 2024

OlympiadBench：一个挑战性的基准测试，旨在推动具备奥林匹克级双语多模式科学问题的通用人工智能

我们提出了 OlympiadBench，这是一个奥林匹克级双语多模态科学基准，包含来自奥林匹克级数学和物理竞赛以及中国大学入学考试的 8,952 个问题，每个问题都有专家级的逐步推理注释。我们在 OlympiadBench 上评估了一流的模型，并实施了全面的评估方法，从而准确评估模型的响应能力。最佳模型 GPT-4V 在 OlympiadBench 上的平均得分为 17.23％，物理得分仅为 11.28％，突出了基准的严谨性和物理推理的复杂性。我们的分析指出了 GPT-4V 存在的幻觉、知识遗漏和逻辑谬误等普遍问题。希望我们挑战性的基准可以成为未来 AGI 研究努力的宝贵资源。

Feb, 2024

通过专业测试评估人工智能职业技能

通过一项新型的专业认证调查，本研究重点评估了两个引用率较高的 AI 模型 GPT-3 和 Turbo-GPT3.5 的职业技能。该研究强调实践准备的重要性，通过考察模型在由 1149 个专业认证组成的基准数据集上的表现，与人类测试成绩进行比较，从而提供了 AI 模型在专业认证方面与甚至超过人类表现的潜力的视角。GPT-3 甚至在没有任何微调或考试准备的情况下，在 39% 的专业认证中获得了及格分数（超过 70% 的正确率），并在云计算与虚拟化、业务分析、网络设置和修复以及数据分析等计算机相关领域展示了熟练程度。另一方面，Turbo-GPT3.5 在备受推崇的 Offensive Security Certified Professional (OSCP) 考试上获得了满分的 100%。该模型还展示了在护理、许可咨询、药剂和航空等多个专业领域的能力。Turbo-GPT3.5 在客户服务任务上表现出色，表明在增强呼叫中心的聊天机器人和日常咨询服务方面具有潜在应用场景。两个模型在机器传统角色之外的感官和基于经验的测试中也表现良好，包括品酒师、啤酒品尝、情商以及身体语言解读。研究发现，OpenAI 从 Babbage 到 Turbo 的模型改进使得评分标准的性能提升了 60%。这一进展表明，解决现有模型的局限性可能会产生能够通过最严格的专业认证的 AI。

Dec, 2023

Gemini 语言能力深度探析

Google Gemini 模型是首个与 OpenAI GPT 系列在各种任务上全面匹敌的模型，本文对该模型的语言能力进行深入探索，并提供第三方客观比较 OpenAI GPT 和 Google Gemini 模型的能力，分析两者各自擅长的领域，并发现对于我们测试的所有任务，Gemini Pro 在准确度上略低于相应的 GPT 3.5 Turbo。

Dec, 2023

语言模型能解决奥林匹克编程吗？

计算竞赛，语言模型，USACO 基准，竞技编程，算法推理

Apr, 2024

挑战 GPT-4V？对 Gemini 在视觉专长方面的早期探索

Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.

Dec, 2023

LLM 之战：对话型 QA 任务的比较研究

通过对 ChatGPT、GPT-4、Gemini、Mixtral 和 Claude 在不同的会话问答语料库中生成的回答进行评估，本研究得出了这些最先进的语言模型的综合比较和评估结果，揭示了它们的能力，并突出了改进的潜在领域。

May, 2024

开源大型语言模型 GPT-4 和 Claude 2 的比较研究：肾脏病学中的多项选择测试

该研究调查了大型语言模型（LLMs）在内科专科多项选择测试能力方面的医学知识能力，与 GPT-4 和 Claude 2 相比，当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。

Aug, 2023

GenAI Arena：生成模型的开放评估平台

通过开源平台 GenAI-Arena 和统计方法，该研究论文提出一种评估图像和视频生成模型的方法，以更准确地衡量模型性能，并发现现有的多模态模型在评估生成的视觉内容方面存在不足。

Jun, 2024

教育证据显示 GPT-4V 战胜 Gemini Pro

本研究通过使用视觉问答（VQA）技术比较了 Gemini Pro 和 GPT-4V 在教育环境下的分类表现，研究了这两个模型在科学教育中阅读基于文本的评分标准并自动评分学生绘制模型的能力。研究发现，GPT-4V 在评分准确性和二次加权 Kappa 方面显著优于 Gemini Pro。定性分析表明，差异可能源于模型处理图像中细粒度文本以及整体图像分类性能的能力。即使调整 NERIF 方法进一步减小输入图像的大小，Gemini Pro 的表现仍不如 GPT-4V。研究结果表明，GPT-4V 在处理复杂多模态教育任务方面具有优异能力。研究结论指出，虽然两个模型都代表了人工智能的进步，但 GPT-4V 的更高性能使其成为涉及多模态数据解释的教育应用更合适的工具。

Dec, 2023