PG3: 通用策略生成的策略引导规划

IJCAIApr, 2022

PG3: 通用策略生成的策略引导规划

PG3: Policy-Guided Planning for Generalized Policy Generation

Ryan Yang, Tom Silver, Aidan Curtis, Tomas Lozano-Perez, Leslie Pack Kaelbling

TL;DR本论文关注基于广义策略搜索的方法，提出了 Score function 的限制，并提出了能够克服这些限制的 Policy-Guided Planning for Generalized Policy Generation (PG3)，该论文在六种不同的领域进行实验，结果证明 PG3 比其他基线更有效地学习了泛化策略。

Abstract

A longstanding objective in classical planning is to synthesize policies that generalize across multiple problems from the same domain. In this work, we study generalized policy search-based methods with a focus on the score function used to guide the search over policies. We demonstra

generalized policy search score function pg3 pddl-based lifted decision lists

发现论文，激发创造

无监督从少量样本学习通用政策

此研究提出了一种替代方法来计算更具表现力的通用策略，该方法不需要样本计划或 QNP 计划程序。该方法可以用机器学习中的标准术语来描述，通过定义来自规划示例中的谓词的大但有限的功能池，并寻找用于将 “好” 与 “坏” 状态转换和目标与非目标分开的一小部分功能。然后，这将作为单个组合优化问题一起解决，用加权最大满足问题来表示。

Jan, 2021

用策略梯度学习经典规划策略

引入一种新的搜索框架来解决规划问题，该框架能够在解决特定规划问题时在几种前向搜索方法之间交替使用，使用可训练的随机策略来选择搜索方法，进而优化搜索策略，实验结果表明该框架优于传统的最佳优先搜索和均匀策略方法。

Oct, 2018

基于启发式搜索的通用规划：利用对象指针的新规划搜索空间

本研究提出了一种新的基于指针的 GP 解空间、评估和启发式函数，以及 BFGP 算法，为了实现 GP 的启发式搜索，避免了提前 grounding state 或 action 所带来的问题，能有效处理大型状态变量集合和大量数值域的情况。

Jan, 2023

计算通用规划的启发式搜索程序

本文针对广义规划领域，在引入启发式搜索方法的前提下，提出首个本地启发式搜索方法，定义基于程序的解空间，以实现不同实例规划和不同实例规划大小的独立运行，同时定义 BFGP 算法进行最佳优先搜索，并由不同评估和启发式功能作为指导。

May, 2022

PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习

介绍了 Policy Cover-Policy Gradient (PC-PG) 算法，其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡，同时具有强大的模型误差优化保证

Jul, 2020

强化学习中的种群指导并行策略搜索

提出了一种新的基于群体引导的并行学习方法，通过在共享经验回放缓冲区中搜索良好的策略，结合最佳策略信息，软融合构建损失函数，以实现稀疏奖励环境下提升最佳期望累计回报的目的，其中 TD3 算法是工作算法之一。

Jan, 2020

强化学习中的时间协调探索的生成规划

通过生成式规划方法可以更有效地进行值最大化的策略优化，从而实现对多步骤动作的生成和增强，进而提高探测效率和行动反应的自适应性。

Jan, 2022

DGPO: 通过多样性指导的策略优化发现多种策略

本文提出了一种基于多样性导向的动态规划策略优化算法（DGPO），该算法使用多样性对象来指导一个隐式编码策略，从而在单一的训练过程中学习出多组不同的策略，并将受外部激励约束的优化问题作为概率推理任务来解决，并使用策略迭代来最大化所得的下界。实验结果表明，该方法在各种强化学习任务中有效地找到了多样化的策略，并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。

Jul, 2022

使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程

本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略，旨在克服两种方法在应对非马尔可夫决策过程上的困难，有效提升算法的效率。

Jun, 2022

泛化规划中的新颖性和提升型有用动作

介绍了基于规划程序的行动新颖性排名概念以及新颖性优化的 GP 算法，采用基于最佳优先搜索 BFS（v）和其渐进变体 PGP（v）的方法，引入来自行动方案的提高可行性行动，并提出了新的评估函数和结构化程序限制，以扩展搜索范围。经实验证明，新算法 BFS（v）和 PGP（v）在标准通用计划基准测试中优于现有算法。

Jul, 2023