高效的符号策略学习与可微分符号表达

Nov, 2023

高效的符号策略学习与可微分符号表达

Efficient Symbolic Policy Learning with Differentiable Symbolic Expression

Jiaming Guo, Rui Zhang, Shaohui Peng, Qi Yi, Xing Hu...

TL;DR通过提出一种名为 Efficient Symbolic Policy Learning（ESPL）的高效梯度学习方法，在深度强化学习中实现从头开始学习符号策略，并扩展至元强化学习，生成出性能更高、效率更高且具有潜力解释的符号策略。

Abstract

deep reinforcement learning (DRL) has led to a wide range of advances in sequential decision-making tasks. However, the complexity of neural network policies makes it difficult to understand and deploy with limited computational resources. Currently, employing compact symbolic expressi

deep reinforcement learning symbolic policies efficient symbolic policy learning meta-rl interpretable policies

发现论文，激发创造

SDRL：利用符号计划的可解释且数据高效的深度强化学习

该研究提出了一种符号深度强化学习（SDRL）框架，该框架通过引入符号规划来实现任务层面的可解释性，并运用计划器 - 控制器 - 元控制器架构进行子任务调度、数据驱动子任务学习和子任务评估，实现与长期规划能力、符号知识以及直接从高维感官输入进行端到端强化学习的优点相结合，并在实验结果中证实了子任务可解释性与与现有技术相比的数据效率改进。

Oct, 2018

深度可解释关系强化学习：神经符号方法

提出了一种新的框架 Deep Explainable Relational Reinforcement Learning (DERRL)，它结合了神经网络和符号世界的优势来提取可解释的策略。通过在倒计时游戏、积木世界、网格世界和交通等不同环境中的实验证明，DERRL 可以适用于不同的配置和情境，从而具有通用性。

Apr, 2023

策略梯度搜索中的探索改进：符号优化应用

本文介绍了两种探索方法 —— 熵正则化和分布初始化，用于解决基于神经网络的自动数学计算任务中的早期决策和初始化偏差问题，从而提高机器学习性能、样本效率和解决方案复杂性。

Jul, 2021

用线性策略网络解决深度强化学习基准

该研究通过神经进化的方式使用演化策略（ES），优化神经网络的权重来进行直接策略搜索，结果表明 ES 能够在许多强化学习基准任务中找到有效的线性策略，相比深度强化学习方法，ES 实现效果与梯度下降算法相当，并且通过直接访问游戏的内存状态，在 Atari 游戏中胜过了 DQN。

Feb, 2024

全面神经符号视觉强化学习与语言解释

该研究介绍了一种神经符号强化学习（Neuro-symbolic reinforcement learning，NS-RL）的框架，通过将视觉基础模型精简为可扩展的感知模块，可以同时学习结构化状态和符号策略，并使用大型语言模型生成简明易读的策略和决策解释，实验结果显示在九个 Atari 任务中，该方法相比现有的 NS-RL 方法获得显著的性能提升，并展示了策略和决策的解释。

Mar, 2024

基于神经符号深度强化学习的安全自主驾驶政策

本研究介绍了一种名为 DRLSL 的新的神经符号模型自由深度强化学习方法，将深度强化学习与符号逻辑知识驱动推理相结合，可以在现实环境下实现安全学习，以实现自主驾驶政策，并可在训练和测试阶段成功避免不安全的行为，且比传统的深度强化学习方法更具有一般性和更快的收敛速度。

Jul, 2023

深度符号强化学习

该研究提出了一个神经和符号端到端强化学习架构，能够克服当前深度学习技术的局限性，如需要非常大的数据集工作、难以实现高级认知功能和透明性欠佳等。研究者以简单的视频游戏为例，展示了这个架构的实现原型，结果表明它能够有效地学习，并通过获得一组符号规则，可将性能提高到比传统完全神经强化学习系统更好的水平。

Sep, 2016

深度符号回归：通过寻求风险策略梯度从数据中恢复数学表达式

提出了利用深度学习解决符号回归的框架，该框架使用循环神经网络生成数学表达式分布，并使用新颖的风险寻求策略梯度来训练网络生成更好的拟合表达式。该算法在一系列基准问题中表现优于几种基准方法，包括符号回归的黄金标准 Eureqa。

Dec, 2019

解释性机器人行走的蒸馏强化学习策略：梯度提升机和符号回归

通过采用梯度提升机、可解释性提升机和符号回归的方法，将神经强化学习策略转化为透明的 “玻璃盒” 模型，用于提高控制策略的可解释性以及数据集聚合算法在行为克隆中的应用。

Mar, 2024

具备复杂性意识的深度符号回归与稳健风险寻求策略梯度

本文提出了一种新颖的深度符号回归方法，以增强数据驱动的数学表达式发现的鲁棒性和解释性。通过使用 transformer 与广度优先搜索相结合来改善学习性能，并使用贝叶斯信息准则（BIC）作为奖励函数来明确考虑表达式复杂性并优化解释性和数据适应性之间的权衡。通过一系列基准测试和系统性实验，我们展示了我们方法的优势。

Jun, 2024