通过迭代局部搜索进行编程策略提取

Jan, 2022

通过迭代局部搜索进行编程策略提取

Programmatic Policy Extraction by Iterative Local Search

Rasmus Larsen, Mikkel Nørgaard Schmidt

TL;DR通过结合模仿投影、数据集聚合和局部搜索启发式，我们提出了一种直接提取预训练神经策略的程序化策略的简单方法，该方法在编程问题和摆动问题上实现了可解释性和高效性。

Abstract

reinforcement learning policies are often represented by neural networks, but programmatic policies are preferred in some cases because th

reinforcement learning neural networks programmatic policies imitation-projection local search heuristic

发现论文，激发创造

可编程可解释强化学习

提出了一种编程可解释性强的强化学习框架 (PIRL)，使用高级领域特定编程语言表示策略，提出了基于神经网络生成的策略的可验证和可解释的替代方案，用基于神经网络的 NDPS 算法来优化 PIRL 策略，这种策略较容易被解释和验证，实验结果证明，与传统的深度强化学习相比，PIRL 策略的轨迹更平滑易于迁移。

Apr, 2018

基于程序综合的混合优化强化学习方法

本论文提出一种 MORL 的框架，通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进，得到符号表示形式，使其可以被手动或自动调试，经过行为克隆和梯度下降法的改进，不断迭代直到满足所需约束，在 CartPole 问题上的实例研究表明该方法能够进行高效的策略学习改进。

Jul, 2018

通过编程组合学习实现分层程序化强化学习

该研究提出了一种基于元策略的方法，使用预先生成的程序数据集来学习程序嵌入空间，并找到解决任务的程序。实验结果表明，该方法可在 Karel 领域产生复杂的行为，并超越现有的方法。

Jan, 2023

Few-Shot Bayesian Imitation Learning with Logical Program Policies

提出了一种表达逻辑组合方案的策略学习算法，该算法可以从少量样本中学习有趣的策略，具备较高的数据效率和计算效率，适用于训练数据稀缺且存在结构差异较大的任务。

Apr, 2019

程序化强化学习的理论基础

强化学习是学习未知随机环境中最佳策略的算法，本文的目标是通过理论研究，首次回答关于编程式强化学习的好策略类别、最佳策略的规模以及如何学习它们等问题。

Feb, 2024

使用演员 - 评论算法和 ReLU 网络合成程序策略

在这篇论文中，我们展示了使用 actor-critic 算法将从 actor-critic 算法学习到的策略转化为以程序形式编码的策略的连接，以此避免了需要使用特定于 PIRL 的算法的问题。实证结果表明，这种转化方法能够学习出简短而有效的策略，并且这些转化后的策略至少具有与 PIRL 算法相竞争的水平，往往更优秀。

Aug, 2023

在语义空间中搜索程序化策略

在本文中，我们提出了一种使用语义空间进行程序策略综合的替代方法，通过学习一组具有不同代理行为的程序库来定义语义空间，并通过在当前候选程序中替换程序库中的程序来近似语义空间，实验证明在语义空间中搜索比在基于语法的空间中搜索更加高效。

May, 2024

基于语言条件的语义搜索导向的机器人操作任务策略

我们提出了一种基于语言条件的语义搜索方法，从可用的示范数据集中获取在线搜索策略，在 CALVIN 基准测试中超过了基线性能，并展现了强大的零样本适应能力，对于扩展基于在线搜索策略的任务具有巨大的潜力。

Dec, 2023

通过集成程序合成和状态机来解决长期任务

提出了 Program Machine Policies (POMPs)，它集成了程序化强化学习和状态机策略的优势，能够表示复杂行为并解决长期任务。通过检索一组有效、多样、兼容的程序，并将其用作状态机的模式，学习过渡函数以在模式程序之间进行转换，从而捕捉长期重复行为，并在各种任务上优于程序化强化学习和深度强化学习基线模型。

Nov, 2023

使用可接受的神经启发式学习可微分程序

研究解决学习特定领域语言中表达的可微分函数的问题，通过将神经网络的不同类视为对程序空间的松弛，并在一系列分类任务中实例化遗传算法和分支界限搜索来发现自然解释和有竞争力的程序分类器。

Jul, 2020