LINGOLY:一份基于奥林匹克水平的语言推理难题在资源稀缺和濒危语言中的基准测试
我们提出了 OlympiadBench,这是一个奥林匹克级双语多模态科学基准,包含来自奥林匹克级数学和物理竞赛以及中国大学入学考试的 8,952 个问题,每个问题都有专家级的逐步推理注释。我们在 OlympiadBench 上评估了一流的模型,并实施了全面的评估方法,从而准确评估模型的响应能力。最佳模型 GPT-4V 在 OlympiadBench 上的平均得分为 17.23%,物理得分仅为 11.28%,突出了基准的严谨性和物理推理的复杂性。我们的分析指出了 GPT-4V 存在的幻觉、知识遗漏和逻辑谬误等普遍问题。希望我们挑战性的基准可以成为未来 AGI 研究努力的宝贵资源。
Feb, 2024
我们介绍了 modeLing,这是一种测试人工智能系统中少样本推理能力的新型 Linguistics Olympiad-style 谜题基准。通过从少数例子中推断一种语言的语法结构的各个方面,解决这些谜题需要一定的推理能力。modeLing 是专门为本研究编写的全新谜题,不会出现在现有 AI 系统的训练数据中,减少了数据泄漏对推理评估的潜在混淆因素。通过在我们的基准测试中评估多个大型开源语言模型和 GPT,我们观察到相当高的准确性,表明具备少样本新兴推理能力,不能仅归因于浅层记忆。然而,不完美的模型表现表明 modeLing 可以用来衡量语言推理的进一步进展。
Jun, 2024
介绍了一个名为 PuzzLing Machines 的小数据学习挑战,该挑战包含来自语言奥林匹克的石碑难题,展示了目前包括最先进的深度神经网络模型在内的简单的统计算法无法完成这一挑战,这启发了新的 NLP 发展方向 -- 人类般思考的理解。
Apr, 2020
本研究使用 IrokoBench 数据集对低资源的非洲语言进行了零样本学习、少样本学习和翻译测试,并发现了高资源语言和低资源非洲语言之间的显著性能差距。机器翻译测试集从而改善了一些以英语为中心的大型模型的表现,结果表明需要更多的努力来开发和适应非洲语言的大型语言模型。
Jun, 2024
该研究探讨了大型语言模型(LLMs)在数学问题求解方面的能力,并使用新开发的 “MathOdyssey” 数据集进行测试。研究结果显示,尽管 LLMs 在常规和中等难度任务上表现良好,但在奥林匹克级难度和复杂的大学水平问题上仍面临重大挑战,因此需要进一步研究来提高 LLMs 的数学推理能力。
Jun, 2024
人工智能的进化已经显著加速,主要得益于大型语言模型和大型多模态模型的进展,在问题解决和科学发现方面逐渐展现出与人类智力相当的潜在认知推理能力(即 AI4Science)。为了全面评估当前模型在认知推理能力方面的表现,我们引入了奥林匹克竞技场(OlympicArena),其中包含了 11,163 个双语问题,涵盖了文本和图像两种模态。这些挑战囊括了七个领域和 62 个国际奥林匹克竞赛的各种学科,经过严谨的数据泄露检测。我们认为,奥林匹克竞赛问题中的挑战非常适合评估 AI 的认知推理能力,因为这些问题具有复杂性和跨学科性质,对于解决复杂科学难题和促进发现非常重要。通过答案评估各学科中的表现之外,我们从多个角度进行了详细的实验和分析,深入探讨了模型的认知推理能力,它们在不同模态下的表现以及在解决长篇解答复杂推理任务中的结果。我们广泛的评估显示,即使是像 GPT-4o 这样的先进模型也只能达到 39.97% 的整体准确率,这说明当前人工智能在复杂推理和多模态整合方面存在局限性。通过奥林匹克竞技场,我们旨在推进人工智能走向超级智能,使其能够应对更复杂的科学和其他挑战。我们还提供了一套全面的资源来支持人工智能研究,包括基准数据集、开源注释平台、详细评估工具和带有自动提交功能的排行榜。
Jun, 2024
对大型语言模型(LLMs)在解谜方面的能力进行探索,揭示了它们在人工智能中的潜力和挑战,这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法,该调查通过各种方法论(包括提示技术、神经符号方法和微调)对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾,我们评估了 LLMs 在复杂谜题情景中的表现,发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度,并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。
Feb, 2024
我们构建了一种基于知识导向的大型语言模型评估基准,并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较,评估 21 个开源和商业大型语言模型的能力和知识相关度。
Jun, 2023