用策略梯度学习经典规划策略

Oct, 2018

Learning Classical Planning Strategies with Policy Gradient

Pawel Gomoluch, Dalal Alrajeh, Alessandra Russo

TL;DR引入一种新的搜索框架来解决规划问题，该框架能够在解决特定规划问题时在几种前向搜索方法之间交替使用，使用可训练的随机策略来选择搜索方法，进而优化搜索策略，实验结果表明该框架优于传统的最佳优先搜索和均匀策略方法。

Abstract

A common paradigm in classical planning is heuristic forward search. Forward search planners often rely on simple best-first search which remains fixed throughout the search process. In this paper, we introduce a novel search framework capable of alternating between several

forward search planning problem stochastic policy policy gradient ipc score

发现论文，激发创造

基于启发式搜索的通用规划：利用对象指针的新规划搜索空间

本研究提出了一种新的基于指针的 GP 解空间、评估和启发式函数，以及 BFGP 算法，为了实现 GP 的启发式搜索，避免了提前 grounding state 或 action 所带来的问题，能有效处理大型状态变量集合和大量数值域的情况。

Jan, 2023

使用神经网络学习特定搜索空间启发式算法

建议并评估了一种系统，该系统学习了一种用于基于正向搜索的满足经典规划的神经网络启发式函数。我们的系统从头开始学习目标估计器，并生成训练数据。通过反向回归搜索或通过反向搜索从给定或猜测的目标状态生成培训数据。

Jun, 2023

无梯度策略架构搜索与自适应

通过梯度自由优化实现政策体系结构搜索和适应，可以学习执行自主驾驶任务。通过从演示和环境奖励中学习，开发了一个模型，可以学习相对较少的早期灾难性失败，并学习适当复杂度的体系结构，调整源领域中演示的政策以适应目标环境中获得的奖励，在逼真的模拟环境中学习驾驶，以提供比基线方法更安全的学习，降低累计崩溃指标。

Oct, 2017

计算通用规划的启发式搜索程序

本文针对广义规划领域，在引入启发式搜索方法的前提下，提出首个本地启发式搜索方法，定义基于程序的解空间，以实现不同实例规划和不同实例规划大小的独立运行，同时定义 BFGP 算法进行最佳优先搜索，并由不同评估和启发式功能作为指导。

May, 2022

学习运动规划的隐式采样分布

本论文提出了一种基于政策搜索的方法，通过利用类似环境中过去搜索的信息生成更好的分布来适应不同环境。该方法可与各种基于采样的计划程序结合使用，以提高性能，验证结果表明该方法在包括 7 自由度机械臂在内的多项任务中取得了显著改进，尤其在碰撞检查和扩展节点数量方面。

Jun, 2018

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

PG3: 通用策略生成的策略引导规划

本论文关注基于广义策略搜索的方法，提出了 Score function 的限制，并提出了能够克服这些限制的 Policy-Guided Planning for Generalized Policy Generation (PG3)，该论文在六种不同的领域进行实验，结果证明 PG3 比其他基线更有效地学习了泛化策略。

Apr, 2022

基于梯度的世界模型规划

人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法，利用可微的世界模型，对比了其他基于 MPC 的方法和基于策略的算法，并在大多数任务中，在具有样本效率的设定下，实现了与其他方法相媲美甚至更好的性能。此外，引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型，优于纯粹的基于策略的方法，这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。

Dec, 2023

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024

图形价值迭代

该论文提出了一种基于图值迭代的领域无关方法，通过利用局部搜索空间的图结构提供更多的信息学习信号，实现了解决规划任务的目标状态，以及通过一种课程策略来平滑学习过程。

Sep, 2022