S-REINFORCE: 一种神经符号化策略梯度方法，用于可解释的强化学习

May, 2023

S-REINFORCE: 一种神经符号化策略梯度方法，用于可解释的强化学习

S-REINFORCE: A Neuro-Symbolic Policy Gradient Approach for Interpretable Reinforcement Learning

Rajdeep Dutta, Qincheng Wang, Ankur Singh, Dhruv Kumarjiguda, Li Xiaoli...

TL;DR该研究提出一种新的强化学习算法 S-REINFORCE，旨在为动态决策任务产生可解释的策略，该算法利用神经网络（NN）和符号回归器（SR）两种类型的函数逼近器来生成数值和符号策略，分别捕捉 NN 组件学到的生成可能动作的数值概率分布以及 SR 组件捕捉关联状态和动作概率之间功能形式，并将其结合起来从而实现对决策问题的求解。实验结果表明 S-REINFORCE 算法在低维度和高维度决策空间的动态决策问题上都具有高效性和影响力，并且所得到的策略不仅性能良好，而且容易理解，是透明度和因果关系至关重要的实际应用的理想选择。

Abstract

This paper presents a novel rl algorithm, s-reinforce, which is designed to generate interpretable policies for dynamic decision-making ta

rl algorithm s-reinforce dynamic decision-making numerical policy symbolic policy

发现论文，激发创造

具有可解释模型和策略网络的神经符号强化学习的三个路径

神经符号人工智能结合经典符号方法的可解释性、简洁性和显式推理与数据驱动神经方法的统计学习。本文在实际强化学习环境中展示了实现此类模型和策略的三个途径，并探讨了逻辑、模拟和学习的潜力和困难，以及与可学习性和可解释性之间的权衡关系。

Feb, 2024

全面神经符号视觉强化学习与语言解释

该研究介绍了一种神经符号强化学习（Neuro-symbolic reinforcement learning，NS-RL）的框架，通过将视觉基础模型精简为可扩展的感知模块，可以同时学习结构化状态和符号策略，并使用大型语言模型生成简明易读的策略和决策解释，实验结果显示在九个 Atari 任务中，该方法相比现有的 NS-RL 方法获得显著的性能提升，并展示了策略和决策的解释。

Mar, 2024

深度可解释关系强化学习：神经符号方法

提出了一种新的框架 Deep Explainable Relational Reinforcement Learning (DERRL)，它结合了神经网络和符号世界的优势来提取可解释的策略。通过在倒计时游戏、积木世界、网格世界和交通等不同环境中的实验证明，DERRL 可以适用于不同的配置和情境，从而具有通用性。

Apr, 2023

通过神经引导的符号抽象获得可解释的逻辑策略

研究介绍了一种基于神经网络和可微逻辑的方法，旨在同时实现可解释性和解释性，引入了物理引导的可微分逻辑策略，评估表明其在识别可解释的策略方面比仅使用神经策略更加优越。

Jun, 2023

神经符号强化学习与规划：综述

本文通过进行文献调查，以三个构成神经符号强化学习的组件为重点（神经网络、符号和强化学习），将研究作品进行分类，并分析其强化学习部分的组成。同时，发现了该领域中的研究机会和挑战。

Sep, 2023

解释性机器人行走的蒸馏强化学习策略：梯度提升机和符号回归

通过采用梯度提升机、可解释性提升机和符号回归的方法，将神经强化学习策略转化为透明的 “玻璃盒” 模型，用于提高控制策略的可解释性以及数据集聚合算法在行为克隆中的应用。

Mar, 2024

一阶逻辑中的神经符号强化学习

为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示，我们提出了一种新的基于逻辑神经网络的强化学习方法，该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略，实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。

Oct, 2021

基因编程用于可解释强化学习策略

通过基于遗传编程的模型驱动批量强化学习，我们介绍了 GPRL 方法，可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程，实验数据表明，相较于符号回归方法，GPRL 能够从现有默认轨迹数据中生产高性能，可解释的强化学习策略。

Dec, 2017

具有形式验证探索的神经符号强化学习

提出 Revel：一种部分神经强化学习（RL）框架，用于在连续状态和动作空间中保证安全探索。通过两个策略分类来解决神经网络验证中的计算难题，并将学习算法投射到安全符号子集中，从而实现不需要显式验证神经网络的安全探索。实验结果显示，Revel 能在许多场景中实现安全探索，并能发现优于以往验证探索方法的政策。

Sep, 2020

社会可解释性强化学习

基于社会学习原理的 Social Interpretable RL (SIRL) 是一种改善学习效率的新型基于人口的方法，通过模拟社会学习过程使每个群体中的智能体基于自身的个体经验和与同伴的共同经验来解决给定任务，实现了在高风险场景中解释能力关键的强化学习应用。

Jan, 2024