神经逻辑强化学习

ICMLApr, 2019

Neural Logic Reinforcement Learning

Zhengyao Jiang, Shan Luo

TL;DR本文提出了一种名为神经逻辑强化学习（NLRL）的新算法，基于策略梯度方法和可微分归纳逻辑编程，通过一阶逻辑来表示强化学习中的策略，解决了深度神经网络难以解释和学习泛化能力低的问题。实验表明，该算法可以在不同的环境下归纳出解释性强且性能接近最优的策略。

Abstract

deep reinforcement learning (DRL) has achieved significant breakthroughs in various tasks. However, most DRL algorithms suffer a problem of generalizing the learned policy which makes the learning performance largely affected even by minor modifications of the training environment. Exc

deep reinforcement learning neural logic reinforcement learning policy gradient methods inductive logic programming interpretability

发现论文，激发创造

深层归纳逻辑编程与强化学习相遇

我们提出了一种将可区分的神经逻辑网络应用于关系强化学习领域，以解决动态连续环境中的问题。该模型更新了架构，使其能够在连续强化学习环境中解决问题，并通过引入非线性连续谓词来改进当前的归纳逻辑编程方法，允许关系强化学习代理在动态和连续的环境中进行推理和决策。

Aug, 2023

一阶逻辑中的神经符号强化学习

为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示，我们提出了一种新的基于逻辑神经网络的强化学习方法，该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略，实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。

Oct, 2021

自然语言强化学习

强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Feb, 2024

深度符号强化学习

该研究提出了一个神经和符号端到端强化学习架构，能够克服当前深度学习技术的局限性，如需要非常大的数据集工作、难以实现高级认知功能和透明性欠佳等。研究者以简单的视频游戏为例，展示了这个架构的实现原型，结果表明它能够有效地学习，并通过获得一组符号规则，可将性能提高到比传统完全神经强化学习系统更好的水平。

Sep, 2016

通过神经引导的符号抽象获得可解释的逻辑策略

研究介绍了一种基于神经网络和可微逻辑的方法，旨在同时实现可解释性和解释性，引入了物理引导的可微分逻辑策略，评估表明其在识别可解释的策略方面比仅使用神经策略更加优越。

Jun, 2023

可微逻辑机

该研究提出了一种新型神经逻辑架构，可以解决归纳逻辑编程和深度强化学习问题，其能够提供完全可解释的解决方案并能够在测试阶段得到更好的运行表现。

Feb, 2021

使用逻辑神经网络结合外部知识的强化学习

本文利用逻辑神经网络（LNNs）定义推理图，通过控制不需要执行的动作来加速强化学习的收敛速度，从外部知识源中实现无模型强化学习，我们的实验结果表明，相较于没有逻辑约束的模型自由强化学习方法，我们的方法收敛速度更快。

Mar, 2021

深度可解释关系强化学习：神经符号方法

提出了一种新的框架 Deep Explainable Relational Reinforcement Learning (DERRL)，它结合了神经网络和符号世界的优势来提取可解释的策略。通过在倒计时游戏、积木世界、网格世界和交通等不同环境中的实验证明，DERRL 可以适用于不同的配置和情境，从而具有通用性。

Apr, 2023

可编程可解释强化学习

提出了一种编程可解释性强的强化学习框架 (PIRL)，使用高级领域特定编程语言表示策略，提出了基于神经网络生成的策略的可验证和可解释的替代方案，用基于神经网络的 NDPS 算法来优化 PIRL 策略，这种策略较容易被解释和验证，实验结果证明，与传统的深度强化学习相比，PIRL 策略的轨迹更平滑易于迁移。

Apr, 2018

基于神经符号深度强化学习的安全自主驾驶政策

本研究介绍了一种名为 DRLSL 的新的神经符号模型自由深度强化学习方法，将深度强化学习与符号逻辑知识驱动推理相结合，可以在现实环境下实现安全学习，以实现自主驾驶政策，并可在训练和测试阶段成功避免不安全的行为，且比传统的深度强化学习方法更具有一般性和更快的收敛速度。

Jul, 2023