Jun, 2024

奥林匹克竞技场:对超智能人工智能的多学科认知推理进行基准测试

TL;DR人工智能的进化已经显著加速,主要得益于大型语言模型和大型多模态模型的进展,在问题解决和科学发现方面逐渐展现出与人类智力相当的潜在认知推理能力(即 AI4Science)。为了全面评估当前模型在认知推理能力方面的表现,我们引入了奥林匹克竞技场(OlympicArena),其中包含了 11,163 个双语问题,涵盖了文本和图像两种模态。这些挑战囊括了七个领域和 62 个国际奥林匹克竞赛的各种学科,经过严谨的数据泄露检测。我们认为,奥林匹克竞赛问题中的挑战非常适合评估 AI 的认知推理能力,因为这些问题具有复杂性和跨学科性质,对于解决复杂科学难题和促进发现非常重要。通过答案评估各学科中的表现之外,我们从多个角度进行了详细的实验和分析,深入探讨了模型的认知推理能力,它们在不同模态下的表现以及在解决长篇解答复杂推理任务中的结果。我们广泛的评估显示,即使是像 GPT-4o 这样的先进模型也只能达到 39.97% 的整体准确率,这说明当前人工智能在复杂推理和多模态整合方面存在局限性。通过奥林匹克竞技场,我们旨在推进人工智能走向超级智能,使其能够应对更复杂的科学和其他挑战。我们还提供了一套全面的资源来支持人工智能研究,包括基准数据集、开源注释平台、详细评估工具和带有自动提交功能的排行榜。