Feb, 2024

OlympiadBench:一个挑战性的基准测试,旨在推动具备奥林匹克级双语多模式科学问题的通用人工智能

TL;DR我们提出了 OlympiadBench,这是一个奥林匹克级双语多模态科学基准,包含来自奥林匹克级数学和物理竞赛以及中国大学入学考试的 8,952 个问题,每个问题都有专家级的逐步推理注释。我们在 OlympiadBench 上评估了一流的模型,并实施了全面的评估方法,从而准确评估模型的响应能力。最佳模型 GPT-4V 在 OlympiadBench 上的平均得分为 17.23%,物理得分仅为 11.28%,突出了基准的严谨性和物理推理的复杂性。我们的分析指出了 GPT-4V 存在的幻觉、知识遗漏和逻辑谬误等普遍问题。希望我们挑战性的基准可以成为未来 AGI 研究努力的宝贵资源。