基于网格的强化学习环境中的通用和可解释知识学习

Sep, 2023

基于网格的强化学习环境中的通用和可解释知识学习

Learning of Generalizable and Interpretable Knowledge in Grid-Based Reinforcement Learning Environments

Manuel Eberhardinger, Johannes Maucher, Setareh Maghsudi

TL;DR使用程序合成方法对深度强化学习代理进行模仿，以了解其学习的概念和决策过程。

Abstract

Understanding the interactions of agents trained with deep reinforcement learning is crucial for deploying agents in games or the real world. In the former, unreasonable actions confuse players. In the latter, that effect is even more significant, as unexpected behavior cause accidents with potentially grave and long-lasting consequences for the involved ind

deep reinforcement learning program synthesis interpretable agents concept learning decision-making process

发现论文，激发创造

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

基于程序综合的混合优化强化学习方法

本论文提出一种 MORL 的框架，通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进，得到符号表示形式，使其可以被手动或自动调试，经过行为克隆和梯度下降法的改进，不断迭代直到满足所需约束，在 CartPole 问题上的实例研究表明该方法能够进行高效的策略学习改进。

Jul, 2018

一种可验证强化学习的归纳综合框架

本文研究如何使用形式化验证技术对增强学习 - enabled 机器学习系统进行验证，以保证其行为安全，并提出了一种基于黑盒方法的综合确定性程序的方法来实现系统验证。

Jul, 2019

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

基因编程用于可解释强化学习策略

通过基于遗传编程的模型驱动批量强化学习，我们介绍了 GPRL 方法，可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程，实验数据表明，相较于符号回归方法，GPRL 能够从现有默认轨迹数据中生产高性能，可解释的强化学习策略。

Dec, 2017

强化学习引导下的程序合成树搜索

本文提出了一种新的程序合成方法，将寻找最优程序的问题转化为基于强化学习的马尔科夫决策过程，并将这种方法应用于浮点数 RISC-V 汇编语言的子集上，并结合基于搜索技术的优先搜索树，证明了我们的方法相较于其他基线方法的优越性

Jun, 2018

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

可解释和可编辑的程序化树策略用于强化学习

我们提出了 INTERPRETER，一种快速蒸馏方法，用于生成用于强化学习的可解释可编辑的树程序。我们通过实验证明，我们的树程序在各种顺序决策任务中能够与训练数据匹配，同时评估了我们设计选择对可解释性和性能的影响。我们展示了我们的策略如何被解释和编辑，以纠正目标对齐错误，并解释真实的农业策略。

May, 2024

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

关系深度强化学习

通过结构化感知和关系推理的方法，使用自我注意力来进行实体之间关系的迭代推理以及指导无模型策略的建立，提高了强化学习的效率、泛化能力和可解释性，并在 Box-World 任务和 StarCraft II Learning Environment 等方面取得了一定的进展。

Jun, 2018