基因编程用于可解释强化学习策略

Dec, 2017

基因编程用于可解释强化学习策略

Interpretable Policies for Reinforcement Learning by Genetic Programming

Daniel Hein, Steffen Udluft, Thomas A. Runkler

TL;DR通过基于遗传编程的模型驱动批量强化学习，我们介绍了 GPRL 方法，可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程，实验数据表明，相较于符号回归方法，GPRL 能够从现有默认轨迹数据中生产高性能，可解释的强化学习策略。

Abstract

The search for interpretable reinforcement learning policies is of high academic and industrial interest. Especially for industrial systems, domain experts are more likely to deploy autonomously learned controllers if they are understandable and convenient to evaluate. Basic algebraic

interpretable reinforcement learning policies genetic programming model-based batch reinforcement learning autonomous learning default state-action trajectory samples

发现论文，激发创造

解释性机器人行走的蒸馏强化学习策略：梯度提升机和符号回归

通过采用梯度提升机、可解释性提升机和符号回归的方法，将神经强化学习策略转化为透明的 “玻璃盒” 模型，用于提高控制策略的可解释性以及数据集聚合算法在行为克隆中的应用。

Mar, 2024

用遗传规划发现动态符号策略

通过遗传编程优化代数表达式，我们展示了白盒符号控制系统可用于学习和优化转换观察到的控制信号的函数，从而提供了比黑盒模型更具解释性和透明度的方案。

Jun, 2024

基于图形的可解释强化学习的两步混合策略学习

本文提出了一种基于图形输入的两步式 RL 策略，透过实用化分类问题将决策过程分解为两个步骤并采用规则挖掘器进行推理，能够生成可解释和鲁棒的分层策略并在复杂文本游戏领域呈现出更好的泛化和稳健性。

Jan, 2022

基于网格的强化学习环境中的通用和可解释知识学习

使用程序合成方法对深度强化学习代理进行模仿，以了解其学习的概念和决策过程。

Sep, 2023

可解释和可编辑的程序化树策略用于强化学习

我们提出了 INTERPRETER，一种快速蒸馏方法，用于生成用于强化学习的可解释可编辑的树程序。我们通过实验证明，我们的树程序在各种顺序决策任务中能够与训练数据匹配，同时评估了我们设计选择对可解释性和性能的影响。我们展示了我们的策略如何被解释和编辑，以纠正目标对齐错误，并解释真实的农业策略。

May, 2024

可编程可解释强化学习

提出了一种编程可解释性强的强化学习框架 (PIRL)，使用高级领域特定编程语言表示策略，提出了基于神经网络生成的策略的可验证和可解释的替代方案，用基于神经网络的 NDPS 算法来优化 PIRL 策略，这种策略较容易被解释和验证，实验结果证明，与传统的深度强化学习相比，PIRL 策略的轨迹更平滑易于迁移。

Apr, 2018

S-REINFORCE: 一种神经符号化策略梯度方法，用于可解释的强化学习

该研究提出一种新的强化学习算法 S-REINFORCE，旨在为动态决策任务产生可解释的策略，该算法利用神经网络（NN）和符号回归器（SR）两种类型的函数逼近器来生成数值和符号策略，分别捕捉 NN 组件学到的生成可能动作的数值概率分布以及 SR 组件捕捉关联状态和动作概率之间功能形式，并将其结合起来从而实现对决策问题的求解。实验结果表明 S-REINFORCE 算法在低维度和高维度决策空间的动态决策问题上都具有高效性和影响力，并且所得到的策略不仅性能良好，而且容易理解，是透明度和因果关系至关重要的实际应用的理想选择。

May, 2023

解释性和简洁的遗传模糊系统强化学习策略

本文介绍了一种名为 Fuzzy MoCoCo 的基于模糊规则的政策演化系统，它利用多目标和合作协同机制，通过在连续状态 RL 环境 Mountain Car 上测试，结果表明该系统能够有效地探索政策性能和复杂性之间的平衡，并学习使用尽可能少的规则的可解释和高性能政策。

May, 2023

具有可解释模型和策略网络的神经符号强化学习的三个路径

神经符号人工智能结合经典符号方法的可解释性、简洁性和显式推理与数据驱动神经方法的统计学习。本文在实际强化学习环境中展示了实现此类模型和策略的三个途径，并探讨了逻辑、模拟和学习的潜力和困难，以及与可学习性和可解释性之间的权衡关系。

Feb, 2024

通过神经引导的符号抽象获得可解释的逻辑策略

研究介绍了一种基于神经网络和可微逻辑的方法，旨在同时实现可解释性和解释性，引入了物理引导的可微分逻辑策略，评估表明其在识别可解释的策略方面比仅使用神经策略更加优越。

Jun, 2023