PRIMA: 多任务推理智能体内的规划推理器

Feb, 2022

PRIMA: 多任务推理智能体内的规划推理器

PRIMA: Planner-Reasoner Inside a Multi-task Reasoning Agent

Daoming Lyu, Bo Liu, Jianshu Chen

TL;DR本研究提出了一个计划推理框架并采用深度强化学习的方式进行训练，旨在解决多任务推理中公共的难题，即如何保持广泛的推理能力和高效的特定任务表现。通过共享推理规则和选择合适的推理路径，该模型在多个领域的实验中取得了良好的效果。

Abstract

We consider the problem of multi-task reasoning (MTR), where an agent can solve multiple tasks via (first-order) logic reasoning. This capability is essential for human-like intelligence due to its strong general

multi-task reasoning logic reasoning planner-reasoner framework deep reinforcement learning efficiency

发现论文，激发创造

多层级组合推理的互动指令跟随

使用多层次组合推理代理（MCR-Agent）将任务分解为多个子目标，分别处理导航和交互，实现了对复杂任务的有效执行，并在效率指标上相较于现有技术获得了 2.03％的绝对增益，无需使用基于规则的计划或语义空间记忆。

Aug, 2023

大型语言模型的多阶段规划任务中的类人推理框架

我们在此研究中专注于解决多阶段旅行计划问题，通过开发类似人类规划模式的规划框架来提高 LLM 代理的规划能力，实验结果表明我们的框架与 GPT-4-Turbo 结合能够在旅行计划任务中获得显著的性能提升。

May, 2024

多智能体系统中的推理能力：限制、挑战和以人为中心的解决方案

利用大型语言模型（LLMs）在多项任务中取得的显著表现带来了在实际环境中利用它们的许多机遇和挑战。为了实现 LLMs 的实际采用，多智能体系统在使用现有专有数据和模型应对复杂现实任务的企业平台的更大背景下，具有增强、整合和协调 LLMs 的巨大潜力。本文提出了 “推理能力” 概念作为统一准则，以实现在优化过程中整合约束并建立系统内不同组件之间的联系，从而实现更全面、综合的评估方法。我们提出了推理能力的正式定义，并说明其在识别系统每个组件的限制方面的实用性。然后，我们讨论了如何通过自反思的过程来解决推理中的缺陷，并增强整个系统的一致性，其中利用人的反馈来缓解推理不足问题。

Feb, 2024

多智能体强化学习的概率递归推理

本论文提出了一种基于递归推理与变分 Bayes 方法的多智体强化学习框架，该框架可以用于建模智体对手的行为，提高智体的自我决策能力以及使其在博弈中达成 Nash 均衡。实验证明，关于智体对手信念的推理，是智体强化学习中一个重要的方向。

Jan, 2019

大型语言模型的元推理

Meta-Reasoning Prompting（MRP）是一种受人类元推理启发的用于大型语言模型（LLMs）的新型高效系统提示方法，通过动态选择和应用不同的推理方法来优化性能和计算效率，实现了在不同任务中达到或接近最先进性能的结果。

Jun, 2024

分层推理用于直觉物理：向可验证的常识语言理解迈进

本文介绍了 Tiered Reasoning for Intuitive Physics（TRIP）的概念，这是一种用于解决机器语言理解和推理方面的通用常识推理数据集。作者指出，尽管大型预训练语言模型可以在终端任务上取得高端性能，但是它们在为其预测提供有效的支持证据方面表现不佳。作者提出的 TRIP 数据集和基线结果将有助于推动常识推理的可验证评估，并促进未来开发更好的语言理解和推理模型的研究。

Sep, 2021

按能力而非得到的结果行事：基于拓扑结构的多模态知识图谱多跳推理

本文提出了一种拓扑感知的、适用于归纳和推理环境下的多模态知识图谱推理方法 TMR，该方法主要由任务感知归纳表示和关系增强自适应强化学习两个组件构成，并在不同规模的归纳推理数据集上进行了评估。实验表明，TMR 在归纳和推理环境下均优于现有的多模态知识图谱推理方法。

Jun, 2023

基于神经网络的推理

Neural Reasoner 是一个基于神经网络的推理框架，具有特殊的交互池机制和深度结构，能够处理不同类型的推理和语言表达形式，并在两个困难人工任务中表现出优越性能。

Aug, 2015

不确定环境下的规划元推理

提出了一种基于 metareasoning 的在线规划模型，用于解决实际场景下规划时间成本与策略改进的平衡问题，并通过引入 BRTDP 规划算法的特殊性质，提出了近似的元推理过程。

May, 2015

MARS：用多任务评估数据集评估语言模型的形而上学推理能力

为了使大型语言模型（LLMs）能够成为具有可推广的推理能力的有意识的代理人，关键是它们具备理解由环境因素或其他代理人的行动触发的分布情况变化（转换）的推理能力。我们提出了一种新颖的推理形式，称为 MetAphysical ReaSoning，它将分布变化的推理视为一个三步骤的判别过程，并引入了首个基准测试 MARS 来评估 LLMs 在推理行动变化引起的可能性、由变化行动引起的状态以及由行动变化驱动的情境转换方面的能力。深入评估显示，即使对于最先进的 LLMs 和经过微调的 LMs 而言，该过程中的所有三个任务都带来了重大挑战。进一步的分析揭示了 LLMs 表现不佳的潜在原因，并证明了在大规模概念分类法中预训练 LLMs 可以潜在地增强其形而上学推理能力。我们的数据和模型可以在此 https URL 上公开访问。

Jun, 2024