用策略梯度学习经典规划策略
本研究提出了一种新的基于指针的 GP 解空间、评估和启发式函数,以及 BFGP 算法,为了实现 GP 的启发式搜索,避免了提前 grounding state 或 action 所带来的问题,能有效处理大型状态变量集合和大量数值域的情况。
Jan, 2023
建议并评估了一种系统,该系统学习了一种用于基于正向搜索的满足经典规划的神经网络启发式函数。我们的系统从头开始学习目标估计器,并生成训练数据。通过反向回归搜索或通过反向搜索从给定或猜测的目标状态生成培训数据。
Jun, 2023
通过梯度自由优化实现政策体系结构搜索和适应,可以学习执行自主驾驶任务。通过从演示和环境奖励中学习,开发了一个模型,可以学习相对较少的早期灾难性失败,并学习适当复杂度的体系结构,调整源领域中演示的政策以适应目标环境中获得的奖励,在逼真的模拟环境中学习驾驶,以提供比基线方法更安全的学习,降低累计崩溃指标。
Oct, 2017
本文针对广义规划领域,在引入启发式搜索方法的前提下,提出首个本地启发式搜索方法,定义基于程序的解空间,以实现不同实例规划和不同实例规划大小的独立运行,同时定义 BFGP 算法进行最佳优先搜索,并由不同评估和启发式功能作为指导。
May, 2022
本论文提出了一种基于政策搜索的方法,通过利用类似环境中过去搜索的信息生成更好的分布来适应不同环境。该方法可与各种基于采样的计划程序结合使用,以提高性能,验证结果表明该方法在包括 7 自由度机械臂在内的多项任务中取得了显著改进,尤其在碰撞检查和扩展节点数量方面。
Jun, 2018
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
本论文关注基于广义策略搜索的方法,提出了 Score function 的限制,并提出了能够克服这些限制的 Policy-Guided Planning for Generalized Policy Generation (PG3),该论文在六种不同的领域进行实验,结果证明 PG3 比其他基线更有效地学习了泛化策略。
Apr, 2022
人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法,利用可微的世界模型,对比了其他基于 MPC 的方法和基于策略的算法,并在大多数任务中,在具有样本效率的设定下,实现了与其他方法相媲美甚至更好的性能。此外,引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型,优于纯粹的基于策略的方法,这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。
Dec, 2023
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
May, 2024