利用探索性规划进行自主学习动作模型

Mar, 2022

利用探索性规划进行自主学习动作模型

Self-directed Learning of Action Models using Exploratory Planning

Dustin Dannenhauer, Matthew Molineaux, Michael W. Floyd, Noah Reifsnyder, David W. Aha

TL;DR本文提出了一种新型的探索计划代理，它能够在没有专家跟踪或给定目标的情况下学习行动先决条件和效果，优化探索和行动模型学习，运用新的表示为 Lifted Linked Clauses 和一种新颖的探索行动选择方法，并在探索为中心的视频游戏场景中进行实证评估。

Abstract

Complex, real-world domains may not be fully modeled for an agent, especially if the agent has never operated in the domain before. The agent

agent planning exploration learning actions

发现论文，激发创造

通过调整规划模型学习在开放世界中的操作

在开放世界中，我们介绍了一个适应新颖性的规划领域模型的方法，通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在，并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估，结果表明我们的方法可以快速且可解释地处理一类新颖性。

Mar, 2023

利用自然语言指导学习自适应规划表示

Ada 使用语言模型从任务通用的背景知识中自动构建特定任务的规划表示，通过与其他使用语言模型进行顺序决策的方法相比，在两个基准任务上表现出更准确的计划和更好的任务复杂性泛化能力。

Dec, 2023

TwoStep：基于经典规划器和大型语言模型的多智能体任务规划

通过结合经典规划和大型语言模型的优势，我们实现了基于 LLMs 的目标分解，提高了计划的速度和执行成功，并且比单一代理计划少了更少的执行步骤，同时实现了与人类专家指定的多代理执行步骤类似的结果。

Mar, 2024

语言模型可以从环境反馈中推断经典计划器的动作语义

提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件，利用 LLM 推理来启发性地完成经典规划器发出的部分计划，并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明，使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划，就能够比随机探索更少的执行步骤和环境重置，并同时恢复领域的基本行动语义。

Jun, 2024

从无序和嘈杂计划痕迹中学习动作模型

本文提出了一种基于 MAX-SAT 框架的方法，用于自动学习规划系统的领域模型，通过输入一组含有无序动作和噪声的计划迹线来输出最佳的动作模型，并通过系统实证评估证明了该方法的有效性

Aug, 2019

从零开始学习基于模型的规划

介绍了一种基于想象的规划器，可以学习构建、评估和执行计划，并可通过学习策略等手段进行多方案模拟，联合优化外部收益和计算成本等目标。

Jul, 2017

提问为前题：面向现实世界规划的积极语言代理

这篇研究论文探索了大型语言模型在用户指令理解和决策方面的潜力，并提出了一种新的任务，即主动性代理规划。通过建立一个新的基准数据集和提出一个多代理框架，研究者验证了所提出框架的有效性。

Jun, 2024

大型部分可观察环境中的顺序计划引导 LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法 neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023

事前学习与行动

本研究使用随机视频预测学习了捕捉场景动态的潜在变量，同时尽量不受场景内容的影响，从而学习代理的行动空间；该方法在半监督学习下表现相当于现有的完全监督方法，在任务如行动条件视频预测和计划学习行动空间时，需要几个数量级更少的行动标签。

Jun, 2018

通过自监督世界模型规划探索

Plan2Explore 是一种无须任务特定交互且能够通过自监督探索和快速适应新任务的强化学习机器人，利用计划来探求未来预期的新颖性并在零次或少次学习中快速适应新任务。

May, 2020