PuzzLing Machines: 从小数据学习的挑战
我们介绍了 modeLing,这是一种测试人工智能系统中少样本推理能力的新型 Linguistics Olympiad-style 谜题基准。通过从少数例子中推断一种语言的语法结构的各个方面,解决这些谜题需要一定的推理能力。modeLing 是专门为本研究编写的全新谜题,不会出现在现有 AI 系统的训练数据中,减少了数据泄漏对推理评估的潜在混淆因素。通过在我们的基准测试中评估多个大型开源语言模型和 GPT,我们观察到相当高的准确性,表明具备少样本新兴推理能力,不能仅归因于浅层记忆。然而,不完美的模型表现表明 modeLing 可以用来衡量语言推理的进一步进展。
Jun, 2024
这篇论文介绍了一项新颖的任务,即多模式拼图解决,其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集,旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明,GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限,对于大量拼图的多选题回答设置,它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。
Mar, 2024
对大型语言模型(LLMs)在解谜方面的能力进行探索,揭示了它们在人工智能中的潜力和挑战,这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法,该调查通过各种方法论(包括提示技术、神经符号方法和微调)对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾,我们评估了 LLMs 在复杂谜题情景中的表现,发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度,并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。
Feb, 2024
使用大型语言模型和 PUZZLEQA 数据集探索解决和生成 NPR Sunday Puzzle 游戏节目谜题的能力,并发现大型语言模型可以解决 PUZZLEQA 谜题,但在生成谜题方面表现不佳,需要未来的研究。
Jun, 2023
我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力,研究发现,现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距,特别是在对抗性格式的一致性上。
Oct, 2023
本文旨在研究神经网络的广泛性,提出 SMART 算法推理任务和关联的 SMART-101 数据集以评估神经网络在 6-8 岁儿童视觉语言谜题领域中的抽象、推理和概括能力,结果表明,神经网络在特定领域的表现合理,但不具有良好的广泛性,ChatGPT 虽然具有令人信服的推理能力,但答案常常是错误的。
Dec, 2022
本文讨论了用于视觉问答等任务的标准评估方法存在的问题,并认为人工数据可以作为当前实践的补充来解决这些问题。我们展示了利用现有的 “深度” 语言处理技术可以创建具有挑战性的抽象数据集,这些数据集使我们能够详细研究多模态深度学习模型的语言理解能力,与静态和单一数据集上的单一性能值相比。
Jun, 2017
通过研究自动化 AI 系统在 Connections 谜题中的效果,该研究探讨了该游戏作为抽象推理的自动化基准测试和衡量数据驱动语言系统中编码的语义信息的潜力。研究发现 Connections 谜题具有挑战性和可行性,是未来工作的重要测试平台。
Apr, 2024
利用自我强化机制提升大型语言模型(LLMs)的推理能力,并通过一个弱监督基准测试集 extsc {PuzzleBen},含有 25,147 个复杂问题以及人工生成的解释,展示了利用较少的监督数据加强 LLMs 推理能力的有效方法。
May, 2024
人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准,并通过提供结构化符号推理模块来拓展深度学习语言模型,以使其更符合人类推理。实验表明,在语言表达能力、泛化能力等方面,人类远远优于 LLMs,这说明混合 AI 模型具有更接近人类推理的潜力。
May, 2022