使用归纳逻辑编程进行的程序合成与抽象推理语料库
该研究介绍了一种利用程序综合方法来推理和解决抽象推理测验(ARC)任务的系统,其中实现了一种特定领域语言 Visual Imagery Reasoning Language (VIMRL),并且通过分解搜索空间和本地搜索来优化大的搜索空间,最终在 ARC 公开测试和私有测试中表现卓越。
Feb, 2023
本文提出一种基于图形抽象的对象中心框架,使用 DSL 进行程序综合,引入了约束获取、状态哈希和禁忌搜索,成功的解决了 ARC 的复杂对象中心任务,并生成了正确而易于理解的程序。
Oct, 2022
本研究提出了一种基于自然语言描述任务的方法框架来解决人工智能中的 Abstraction and Reasoning Corpus (ARC) 问题,虽然尚未击败当前最先进的 DSL 模型,但我们证明了我们的方法具有巨大的潜力,可以解决以前不能解决的任务。
Mar, 2023
通过将 ARC 问题转化为广义规划问题,我们引入了 ARC 求解器 GPAR,采用指针的规划程序来解决 ARC 问题,利用表示对象中心抽象的外部函数结合标准规划域定义语言(PDDL)来表达每个 ARC 问题,并通过领域知识来扩展 GP 求解器,实验结果表明 GPAR 在 ARC 的对象中心任务上表现优于最先进的求解器,展示了 GP 的有效性和 PDDL 对建模 ARC 问题的表达能力。
Jan, 2024
通过产生多个抽象假设并将其转化为具体的 Python 程序,进而为大型语言模型提高归纳推理能力,并利用自动生成的摘要或人工筛选的候选集来过滤生成的程序,从而在归纳推理任务中实现更高的准确性。
Sep, 2023
人工智能研究半个世纪以来一直试图复制人类的抽象和推理能力,创造出可以从一小组示例中学习新概念的计算机系统,在人类轻松掌握的情境下进行。然而,尽管特定神经网络能够解决一系列问题,但对于训练数据之外的广泛泛化,仍然是个难题。本文提出了几种新颖的解决方法,用于解决抽象与推理语料库 (ARC) 的问题。尽管竞赛的最佳算法仍然无法解决大多数 ARC 任务,并且依赖于复杂的手工规则,而不使用机器学习。我们重新审视了神经网络领域的最新进展是否能够在这个任务上取得进展,并提出了适应 ARC 的 DreamCoder 神经符号推理求解器。DreamCoder 自动编写特定领域的语言程序进行推理,并使用神经网络模拟人类直觉。我们提出了感知抽象与推理语言 (PeARL) 语言,使 DreamCoder 能够解决 ARC 任务,并提出了一种新的识别模型,显著改进了之前的最佳实现。我们还提出了一种新的编码和增强方案,使大语言模型 (LLMs) 能够解决 ARC 任务,并发现最大的模型可以解决一些 ARC 任务。LLMs 能够解决一组不同于现有解算器的问题,并为其他方法提供了一种有趣的补充方式。我们进行了集成分析,将模型结合起来以取得比任何单独系统更好的结果。最后,我们发布了 arckit Python 库,使未来对 ARC 的研究更加容易。
Feb, 2024
通过使用 Abstraction and Reasoning Corpus(ARC)作为基准,我们介绍了一种与人类生成的自然程序相一致的以对象为中心的模型,这些模型不仅可以进行预测,还可以为输入 / 输出对提供联合描述,并且通过最小描述长度(MDL)原则在大型模型空间中高效搜索。我们解决了多样化的任务,并且学得的模型与自然程序相似。同时,我们还展示了我们的方法的广泛适用性。
Nov, 2023
利用 Abstract and Reasoning Corpus 数据集的新方法,我们评估了大型语言模型的推理和上下文理解能力,结果表明虽然大型语言模型具有薄弱的推理能力,但在逻辑连贯性、组合性和生产力方面仍然落后于人类,我们的实验突显了 LLM 的推理能力,并提出了实现人类级别推理的发展路径。
Mar, 2024
利用约束驱动的归纳逻辑编程系统,通过组合一组小的、不可分离的程序来学习递归程序,并且实现谓词发明,在游戏玩法和程序合成等多个领域的实验表明,该方法在预测准确率和学习时间上明显优于现有方法,有时将学习时间从一小时以上缩短到几秒钟。
Jun, 2022
LLM-ARC 是一个神经符号框架,通过将大语言模型(LLMs)与自动推理评论家(ARC)相结合,提升其逻辑推理能力。它采用了演员 - 评论家方法,其中 LLM 演员生成声明性逻辑程序和语义正确性测试,而自动推理评论家评估代码,运行测试,并提供关于测试失败的反馈以进行迭代改进。在 FOLIO 基准测试中,利用 ASP 实现的 LLM-ARC 实现了 88.32% 的新的最高准确性,测试了复杂的逻辑推理能力。我们的实验证明了 LLM-ARC 相对于仅使用 LLM 的基准线的显著改进,突出了逻辑测试生成和迭代自我改进的重要性。我们通过完全自动化的自我监督训练循环达到了最佳结果,其中演员在端到端对话追踪上接受评论家的反馈训练。我们讨论了潜在的改进,并提供了详细的错误分析,展示了 LLM-ARC 在复杂自然语言推理任务中的鲁棒性和有效性。
Jun, 2024