通过集成程序合成和状态机来解决长期任务

Nov, 2023

通过集成程序合成和状态机来解决长期任务

Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines

Yu-An Lin, Chen-Tao Lee, Guan-Ting Liu, Pu-Jen Cheng, Shao-Hua Sun

TL;DR提出了 Program Machine Policies (POMPs)，它集成了程序化强化学习和状态机策略的优势，能够表示复杂行为并解决长期任务。通过检索一组有效、多样、兼容的程序，并将其用作状态机的模式，学习过渡函数以在模式程序之间进行转换，从而捕捉长期重复行为，并在各种任务上优于程序化强化学习和深度强化学习基线模型。

Abstract

deep reinforcement learning excels in various domains but lacks generalizability and interoperability. programmatic rl methods (Trivedi et

deep reinforcement learning programmatic rl state machine policies long-horizon tasks generalizability

发现论文，激发创造

基于程序综合的混合优化强化学习方法

本论文提出一种 MORL 的框架，通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进，得到符号表示形式，使其可以被手动或自动调试，经过行为克隆和梯度下降法的改进，不断迭代直到满足所需约束，在 CartPole 问题上的实例研究表明该方法能够进行高效的策略学习改进。

Jul, 2018

通过编程组合学习实现分层程序化强化学习

该研究提出了一种基于元策略的方法，使用预先生成的程序数据集来学习程序嵌入空间，并找到解决任务的程序。实验结果表明，该方法可在 Karel 领域产生复杂的行为，并超越现有的方法。

Jan, 2023

强化学习引导下的程序合成树搜索

本文提出了一种新的程序合成方法，将寻找最优程序的问题转化为基于强化学习的马尔科夫决策过程，并将这种方法应用于浮点数 RISC-V 汇编语言的子集上，并结合基于搜索技术的优先搜索树，证明了我们的方法相较于其他基线方法的优越性

Jun, 2018

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

指导技能学习和抽象以实现长远操纵

LEAGUE 是一种集成任务计划和技能学习框架，利用任务计划器的符号界面指导基于深度强化学习的技能学习，同时创建抽象状态空间以实现技能重用，并可以在任务计划系统内学习操作技能，不断提高其能力并解决更多任务。

Oct, 2022

Plan-Seq-Learn: 语言模型引导强化学习解决长时程机器人任务

利用大型语言模型（LLMs）和运动规划，提出了一种模块化方法 Plan-Seq-Learn（PSL），将抽象语言和学习到的低级控制相结合，从头开始解决长期目标的机器人任务，并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。

May, 2024

解决组合复杂度高的长视界深度强化学习任务的挑战

通过提出一系列机器人任务，不需要额外的专业探索便可解决的优化问题，研究发现标准强化学习方法往往由于折扣而忽视长期影响，而通用层次强化学习方法则需要额外的抽象领域知识。

Jun, 2022

基于网格的强化学习环境中的通用和可解释知识学习

使用程序合成方法对深度强化学习代理进行模仿，以了解其学习的概念和决策过程。

Sep, 2023

基于模型的组合状态和动作空间学习与规划的全球方案

本文提出了一种形式化方法，通过学习动态模型和观察状态转移示例来导出世界程序，并将其作为复杂规划任务的模拟器，以进行强化学习。作者强调了最近的应用，并提出了基于世界程序规划的挑战，以评估学习算法的性能。

Dec, 2019

通过迭代局部搜索进行编程策略提取

通过结合模仿投影、数据集聚合和局部搜索启发式，我们提出了一种直接提取预训练神经策略的程序化策略的简单方法，该方法在编程问题和摆动问题上实现了可解释性和高效性。

Jan, 2022