使用算法解决逻辑谜题
本文介绍了一种叫做编程谜题的新型编程挑战,以 Python 编程谜题为例,详细讲述了该类谜题的属性,覆盖了从级别不同的变量操作问题到经典的编程问题(例如汉诺塔),再到算法和数学中长期存在的开放问题(例如因子分解)。通过设计基于枚举的编程合成方法、GPT-3 和 Codex 解题器,可以解决这些谜题。Codex 解题器表现最佳,在没有参考解决方案的情况下,单独尝试解决了 397 个测试问题中的最高 18%,1,000 次尝试解决了 80% 的问题,在小规模的用户研究中,发现人类的难度与 AI 解决程序的难度之间存在积极的相关性。因此,进一步改进编程谜题可能对许多程序合成领域产生重大影响。
Jun, 2021
这篇论文介绍了一项新颖的任务,即多模式拼图解决,其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集,旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明,GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限,对于大量拼图的多选题回答设置,它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。
Mar, 2024
算法推理在问题解决和决策过程中起着重要作用,强化学习在运动控制、处理感知输入和管理随机环境等任务中表现出卓越的技能。本研究引入了 PUZZLES,这是一个基于 Simon Tatham 的便携式拼图集的基准,旨在促进算法和逻辑推理在强化学习中的进展。PUZZLES 包含 40 个不同大小和复杂程度的多样逻辑拼图,许多拼图还具有一组多样的配置参数。这 40 个拼图提供了关于强化学习代理的优势和泛化能力的详细信息。此外,我们在 PUZZLES 上评估了各种强化学习算法,提供了基准比较,并展示了未来研究的潜力。所有软件和环境都可在此 https URL 网址上获得。
Jun, 2024
对大型语言模型(LLMs)在解谜方面的能力进行探索,揭示了它们在人工智能中的潜力和挑战,这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法,该调查通过各种方法论(包括提示技术、神经符号方法和微调)对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾,我们评估了 LLMs 在复杂谜题情景中的表现,发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度,并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。
Feb, 2024
本文讨论了当前人工智能技术在解决结合基本知识和常识推理的词问题方面的能力和局限性。我们回顾了三种方法,并讨论了现有技术在解决这些问题方面的限制。我们认为,这些限制可能对数学应用和人类书写的数学内容的理解有重要影响。
Jan, 2023
本研究探讨在数学中的程序抽象结构,定案例研究并且说明通过 Peano 定理证明环境和可重用抽象的能力,加上恰当的教学大纲,是保障自动化数学推理的长期文化传播的有效方法。
Nov, 2022
本文研究了利用基因算法和自然语言模型生成规则,将其应用于教育游戏的难度调整。通过应用该方法设计了一款趣味教育游戏,针对幼儿园儿童,且初步实验结果表明该方法能够在二十多代以内找到符合指定难度要求的规则。未来研究将关注数据收集与模型优化。
Jul, 2023
我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力,研究发现,现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距,特别是在对抗性格式的一致性上。
Oct, 2023