提出了一种编程可解释性强的强化学习框架 (PIRL),使用高级领域特定编程语言表示策略,提出了基于神经网络生成的策略的可验证和可解释的替代方案,用基于神经网络的 NDPS 算法来优化 PIRL 策略,这种策略较容易被解释和验证,实验结果证明,与传统的深度强化学习相比,PIRL 策略的轨迹更平滑易于迁移。
Apr, 2018
本论文提出一种 MORL 的框架,通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进,得到符号表示形式,使其可以被手动或自动调试,经过行为克隆和梯度下降法的改进,不断迭代直到满足所需约束,在 CartPole 问题上的实例研究表明该方法能够进行高效的策略学习改进。
Jul, 2018
该研究提出了一种基于元策略的方法,使用预先生成的程序数据集来学习程序嵌入空间,并找到解决任务的程序。实验结果表明,该方法可在 Karel 领域产生复杂的行为,并超越现有的方法。
Jan, 2023
提出了一种表达逻辑组合方案的策略学习算法,该算法可以从少量样本中学习有趣的策略,具备较高的数据效率和计算效率,适用于训练数据稀缺且存在结构差异较大的任务。
Apr, 2019
强化学习是学习未知随机环境中最佳策略的算法,本文的目标是通过理论研究,首次回答关于编程式强化学习的好策略类别、最佳策略的规模以及如何学习它们等问题。
Feb, 2024
在这篇论文中,我们展示了使用 actor-critic 算法将从 actor-critic 算法学习到的策略转化为以程序形式编码的策略的连接,以此避免了需要使用特定于 PIRL 的算法的问题。实证结果表明,这种转化方法能够学习出简短而有效的策略,并且这些转化后的策略至少具有与 PIRL 算法相竞争的水平,往往更优秀。
Aug, 2023
在本文中,我们提出了一种使用语义空间进行程序策略综合的替代方法,通过学习一组具有不同代理行为的程序库来定义语义空间,并通过在当前候选程序中替换程序库中的程序来近似语义空间,实验证明在语义空间中搜索比在基于语法的空间中搜索更加高效。
May, 2024
我们提出了一种基于语言条件的语义搜索方法,从可用的示范数据集中获取在线搜索策略,在 CALVIN 基准测试中超过了基线性能,并展现了强大的零样本适应能力,对于扩展基于在线搜索策略的任务具有巨大的潜力。
Dec, 2023
提出了 Program Machine Policies (POMPs),它集成了程序化强化学习和状态机策略的优势,能够表示复杂行为并解决长期任务。通过检索一组有效、多样、兼容的程序,并将其用作状态机的模式,学习过渡函数以在模式程序之间进行转换,从而捕捉长期重复行为,并在各种任务上优于程序化强化学习和深度强化学习基线模型。
Nov, 2023
研究解决学习特定领域语言中表达的可微分函数的问题,通过将神经网络的不同类视为对程序空间的松弛,并在一系列分类任务中实例化遗传算法和分支界限搜索来发现自然解释和有竞争力的程序分类器。
Jul, 2020