LLM-ARC: 提升 LLM 模型与自动推理评论家

Jun, 2024

LLM-ARC: 提升 LLM 模型与自动推理评论家

LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic

Aditya Kalyanpur, Kailash Saravanakumar, Victor Barres, Jennifer Chu-Carroll, David Melville...

TL;DRLLM-ARC 是一个神经符号框架，通过将大语言模型（LLMs）与自动推理评论家（ARC）相结合，提升其逻辑推理能力。它采用了演员 - 评论家方法，其中 LLM 演员生成声明性逻辑程序和语义正确性测试，而自动推理评论家评估代码，运行测试，并提供关于测试失败的反馈以进行迭代改进。在 FOLIO 基准测试中，利用 ASP 实现的 LLM-ARC 实现了 88.32% 的新的最高准确性，测试了复杂的逻辑推理能力。我们的实验证明了 LLM-ARC 相对于仅使用 LLM 的基准线的显著改进，突出了逻辑测试生成和迭代自我改进的重要性。我们通过完全自动化的自我监督训练循环达到了最佳结果，其中演员在端到端对话追踪上接受评论家的反馈训练。我们讨论了潜在的改进，并提供了详细的错误分析，展示了 LLM-ARC 在复杂自然语言推理任务中的鲁棒性和有效性。

Abstract

We introduce llm-arc, a neuro-symbolic framework designed to enhance the logical reasoning capabilities of Large Language Models (LLMs), b

llm-arc neuro-symbolic framework logical reasoning automated reasoning critic semantic correctness

发现论文，激发创造

大型语言模型能像人类一样解决 ARC 视觉类比问题吗？

通过比较人类和大型语言模型（LLM）在一组新的儿童友好的 Abstraction Reasoning Corpus（ARC）项目上的表现，发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略，并发现了两种其他错误类型，一种基于似乎掌握关键概念，另一种基于类比输入矩阵的简单组合。这项研究揭示了 LLM 的推理能力以及我们可以利用错误分析和与人类发展的比较来理解 LLMs 如何解决视觉类比问题。

Mar, 2024

大型语言模型（LLM）作为多个专家代理系统：解决抽象和推理语料库（ARC）挑战的方法

使用大型语言模型（LLMs）作为多个专家代理系统，通过在零样本、少样本、上下文引导提示的情况下启动 LLMs 的灵活性，我们试图解决抽象和推理语料库（ARC）挑战。通过将输入图像转换为多个适合的基于文本的抽象空间，我们利用 LLMs 的联想能力推导出输入输出关系，并将其映射到工作程序形式的行动，类似于 Voyager / Ghost in the MineCraft。此外，我们使用迭代环境反馈来指导 LLMs 解决任务。我们的方法在训练集问题的 111 个问题中实现了 50 个解决方案（45%），仅使用三个抽象空间 - 网格、对象和像素。我们相信通过更多的抽象空间和可学习的行动，我们将能够解决更多问题。

Oct, 2023

使用归纳逻辑编程进行的程序合成与抽象推理语料库

提出一种使用归纳逻辑编程的程序合成系统来解决抽象与推理语料库（ARC）的方法。通过定义一个与 ARC 相关的领域特定语言（DSL）和逻辑程序，该系统能够通过少量示例任务进行泛化和推理，从而解决需要不同推理方法的 ARC 中的任务。

May, 2024

CriticBench: LLMs 评估评论改正推理基准

利用 CriticBench 评估和解析 17 个大型语言模型在生成、批评和纠正推理（即 GQC 推理）中的性能，发现 GQC 能力呈线性关系，批评训练显著增强性能，校正效果因任务而异，逻辑导向任务更容易纠正，模型大小增加可以减少 GQC 知识的不一致性，强模型在批评弱模型方面表现更好，而弱模型在自我批评方面却能出人意料地超过强模型，为大型语言模型的批评和自我改进研究提供了深入理解。

Feb, 2024

LLM 推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

大型语言模型的推理能力：对抽象与推理语料库的深度分析

利用 Abstract and Reasoning Corpus 数据集的新方法，我们评估了大型语言模型的推理和上下文理解能力，结果表明虽然大型语言模型具有薄弱的推理能力，但在逻辑连贯性、组合性和生产力方面仍然落后于人类，我们的实验突显了 LLM 的推理能力，并提出了实现人类级别推理的发展路径。

Mar, 2024

通过语言进行视觉抽象和推理

本研究提出了一种基于自然语言描述任务的方法框架来解决人工智能中的 Abstraction and Reasoning Corpus (ARC) 问题，虽然尚未击败当前最先进的 DSL 模型，但我们证明了我们的方法具有巨大的潜力，可以解决以前不能解决的任务。

Mar, 2023

解决抽象推理语料库任务的方法

该研究介绍了一种利用程序综合方法来推理和解决抽象推理测验（ARC）任务的系统，其中实现了一种特定领域语言 Visual Imagery Reasoning Language （VIMRL），并且通过分解搜索空间和本地搜索来优化大的搜索空间，最终在 ARC 公开测试和私有测试中表现卓越。

Feb, 2023

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

大型语言模型的自动多步推理和工具使用

ART 框架使用冻结的 LLM 自动生成中间推理步骤作为程序，并能无缝集成生成和外部工具使用，使得在 BigBench 和 MMLU 基准测试中，通过自动 CoT 和 few-shot 提示，ART 实现了对未知任务的实质性改进。在选定的任务上，人们可以通过纠正特定的程序错误或整合新工具来改善 ART 的性能.

Mar, 2023