SDRL：利用符号计划的可解释且数据高效的深度强化学习

Oct, 2018

SDRL：利用符号计划的可解释且数据高效的深度强化学习

SDRL: Interpretable and Data-efficient Deep Reinforcement Learning Leveraging Symbolic Planning

Daoming Lyu, Fangkai Yang, Bo Liu, Steven Gustafson

TL;DR该研究提出了一种符号深度强化学习（SDRL）框架，该框架通过引入符号规划来实现任务层面的可解释性，并运用计划器 - 控制器 - 元控制器架构进行子任务调度、数据驱动子任务学习和子任务评估，实现与长期规划能力、符号知识以及直接从高维感官输入进行端到端强化学习的优点相结合，并在实验结果中证实了子任务可解释性与与现有技术相比的数据效率改进。

Abstract

deep reinforcement learning (DRL) has gained great success by learning directly from high-dimensional sensory inputs, yet is notorious for the lack of interpretability. →

deep reinforcement learning interpretability symbolic planning subtask scheduling data efficiency

发现论文，激发创造

深度符号强化学习

该研究提出了一个神经和符号端到端强化学习架构，能够克服当前深度学习技术的局限性，如需要非常大的数据集工作、难以实现高级认知功能和透明性欠佳等。研究者以简单的视频游戏为例，展示了这个架构的实现原型，结果表明它能够有效地学习，并通过获得一组符号规则，可将性能提高到比传统完全神经强化学习系统更好的水平。

Sep, 2016

深度可解释关系强化学习：神经符号方法

提出了一种新的框架 Deep Explainable Relational Reinforcement Learning (DERRL)，它结合了神经网络和符号世界的优势来提取可解释的策略。通过在倒计时游戏、积木世界、网格世界和交通等不同环境中的实验证明，DERRL 可以适用于不同的配置和情境，从而具有通用性。

Apr, 2023

基于神经符号深度强化学习的安全自主驾驶政策

本研究介绍了一种名为 DRLSL 的新的神经符号模型自由深度强化学习方法，将深度强化学习与符号逻辑知识驱动推理相结合，可以在现实环境下实现安全学习，以实现自主驾驶政策，并可在训练和测试阶段成功避免不安全的行为，且比传统的深度强化学习方法更具有一般性和更快的收敛速度。

Jul, 2023

PEORL: 集成符号化规划与层次化强化学习用于鲁棒性决策

本文介绍了一种统一框架 PEORL，将符号计划与分层强化学习相结合，以应对不确定的动态环境下的决策制定，通过符号计划指导智能体的任务执行和学习，学到的经验则反馈给符号知识以改进计划，可在复杂领域产生快速的策略搜索和稳健的符号计划。

Apr, 2018

高效的符号策略学习与可微分符号表达

通过提出一种名为 Efficient Symbolic Policy Learning（ESPL）的高效梯度学习方法，在深度强化学习中实现从头开始学习符号策略，并扩展至元强化学习，生成出性能更高、效率更高且具有潜力解释的符号策略。

Nov, 2023

通过技能多样性利用近似符号模型进行强化学习

本文介绍了近似符号模型引导的强化学习方法，该方法将字符的建模与底层措施相结合，以在不完整的符号模型信息下发现任务结构并有效地引导强化学习智能体向目标靠拢。

Feb, 2022

全面神经符号视觉强化学习与语言解释

该研究介绍了一种神经符号强化学习（Neuro-symbolic reinforcement learning，NS-RL）的框架，通过将视觉基础模型精简为可扩展的感知模块，可以同时学习结构化状态和符号策略，并使用大型语言模型生成简明易读的策略和决策解释，实验结果显示在九个 Atari 任务中，该方法相比现有的 NS-RL 方法获得显著的性能提升，并展示了策略和决策的解释。

Mar, 2024

深度强化学习驱动调度的可解释建模

通过使用可解释性强的决策树模型，我们提出了一个名为 IRL（可解释增强学习）的框架，用于解决深度强化学习在集群调度中缺乏可解释性的问题，并且证明了 IRL 可以在保持相似调度性能的同时将黑盒深度神经网络策略转化为可解释的基于规则的决策树。

Mar, 2024

神经符号强化学习与规划：综述

本文通过进行文献调查，以三个构成神经符号强化学习的组件为重点（神经网络、符号和强化学习），将研究作品进行分类，并分析其强化学习部分的组成。同时，发现了该领域中的研究机会和挑战。

Sep, 2023

走向具备常识的符号强化学习

本论文提出了一种名为 Symbolic Reinforcement Learning with Common Sense (SRL+CS) 的算法，它在奖励分配和 Q 值聚合时结合了常识原则，使得在转移学习和零 - shot 转移学习等方面具有更好的泛化和特化表现。实验结果表明，SRL+CS 算法比 Q-learning 和 DSRL 算法更为快速且更准确，是近乎完美零 - shot 转移学习在强化学习领域的首次尝试。

Apr, 2018