不确定环境下的规划元推理

IJCAIMay, 2015

Metareasoning for Planning Under Uncertainty

Christopher H. Lin, Andrey Kolobov, Ece Kamar, Eric Horvitz

TL;DR提出了一种基于 metareasoning 的在线规划模型，用于解决实际场景下规划时间成本与策略改进的平衡问题，并通过引入 BRTDP 规划算法的特殊性质，提出了近似的元推理过程。

Abstract

The conventional model for online planning under uncertainty assumes that an agent can stop and plan without incurring costs for the time spent planning. However, planning time is not free in most real-world sett

online planning uncertainty metareasoning markov decision process brtdp planning algorithm

发现论文，激发创造

并发规划和执行的形式元推理模型

本研究旨在解决进行计划和执行时由于时间紧张而面临的机遇与风险权衡问题，并通过发展贪心解决方案算法，为同时计划和执行的有原则的时间感知执行奠定了基础。

Mar, 2023

在部分可观察环境中，结合元政策和蒙特卡罗规划实现可扩展的基于类型的推理

提出了一种基于类型推理的部分可观测元蒙特卡罗规划方法，在多智能体系统中实现对其他智能体的有效交互和长期规划，相比现有方法计算更快且能够得到更优解。

Jun, 2023

基于风险意识元层决策的不确定探索

本研究提出了一种基于风险感知的元层决策框架来平衡本地和全局勘探的权衡，将覆盖计划者的传统层次结构建立在元层决策制定的基础上，利用环境历史、可通过性风险和运动动力学约束等信息来决定本地和全局决策之间的转换，进而提高大规模环境勘探的效率。

Sep, 2022

PRIMA: 多任务推理智能体内的规划推理器

本研究提出了一个计划推理框架并采用深度强化学习的方式进行训练，旨在解决多任务推理中公共的难题，即如何保持广泛的推理能力和高效的特定任务表现。通过共享推理规则和选择合适的推理路径，该模型在多个领域的实验中取得了良好的效果。

Feb, 2022

大型语言模型的元推理

Meta-Reasoning Prompting（MRP）是一种受人类元推理启发的用于大型语言模型（LLMs）的新型高效系统提示方法，通过动态选择和应用不同的推理方法来优化性能和计算效率，实现了在不同任务中达到或接近最先进性能的结果。

Jun, 2024

决策论规划：结构假设与计算杠杆

本篇论文介绍和综合了基于马尔可夫决策过程相关的方法，显示它们为建立 AI 中研究的许多类计划问题提供了一个统一的框架，并概述了用于易于构建策略或计划的计算工具的几种类型的表示和算法。

May, 2011

我已做足了计划还是需要再进行规划？

该研究探讨人类在计算资源有限的情况下如何决策分配的元认知能力和元学习机制，结果表明人们通过学习来获得这种能力，并且可能是通过一种策略梯度机制来学习调整规划的数量。

Jan, 2022

使用双层马尔可夫决策过程进行空间任务的应急计划

该研究侧重于科学任务的自主应变规划，通过允许从状态空间的任何非正常点快速计算决策，以应对与正常任务计划的延误或偏离。通过提出双层马尔可夫决策过程（MDP）框架，改进了计算可处理性，同时与现有任务规划实践相吻合并增强了基于人工智能的解决方案的可解释性和可信度，通过将任务规划 MDP 转化为双层 MDP 来讨论了这一框架，并在 RoverGridWorld 上对其进行了测试，这是一个用于漫游任务规划的改进的 GridWorld 环境。我们展示了使用双层 MDP 方法实现的计算可处理性和近似最佳策略，突出了问题复杂性增加时计算时间和政策最优性之间的权衡。这项研究有助于更高效和灵活地应对科学任务的应变规划。

Feb, 2024

利用人工智能改善在大型部分可观测环境中的人类规划

该研究开发了第一个元推理算法来发现资源合理策略，将其应用于人类在部分可观察环境下的规划中，并通过智能教师教授学习所得的策略，以提高人类在复杂、部分可观察的序列决策问题中的规划能力。

Feb, 2023

短期预测实现长期规划

通过将规划问题分为两个阶段（预测和建模），使用递归神经网络，利用监督学习技术通过对输入节点进行优化来解决长期规划问题，从而在自动驾驶应用中学习鲁棒政策，并纳入敌对因素以优化环境。

Feb, 2016