一阶逻辑中的神经符号强化学习

EMNLPOct, 2021

Neuro-Symbolic Reinforcement Learning with First-Order Logic

Daiki Kimura, Masaki Ono, Subhajit Chaudhury, Ryosuke Kohita, Akifumi Wachi...

TL;DR为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示，我们提出了一种新的基于逻辑神经网络的强化学习方法，该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略，实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。

Abstract

deep reinforcement learning (RL) methods often require many trials before convergence, and no direct interpretability of trained policies is provided. In order to achieve fast convergence and interpretability for the policy in RL, we propose a novel RL method for →

deep reinforcement learning neuro-symbolic framework text-based games logical neural network interpretable policies

发现论文，激发创造

神经逻辑强化学习

本文提出了一种名为神经逻辑强化学习（NLRL）的新算法，基于策略梯度方法和可微分归纳逻辑编程，通过一阶逻辑来表示强化学习中的策略，解决了深度神经网络难以解释和学习泛化能力低的问题。实验表明，该算法可以在不同的环境下归纳出解释性强且性能接近最优的策略。

Apr, 2019

全面神经符号视觉强化学习与语言解释

该研究介绍了一种神经符号强化学习（Neuro-symbolic reinforcement learning，NS-RL）的框架，通过将视觉基础模型精简为可扩展的感知模块，可以同时学习结构化状态和符号策略，并使用大型语言模型生成简明易读的策略和决策解释，实验结果显示在九个 Atari 任务中，该方法相比现有的 NS-RL 方法获得显著的性能提升，并展示了策略和决策的解释。

Mar, 2024

使用逻辑神经网络结合外部知识的强化学习

本文利用逻辑神经网络（LNNs）定义推理图，通过控制不需要执行的动作来加速强化学习的收敛速度，从外部知识源中实现无模型强化学习，我们的实验结果表明，相较于没有逻辑约束的模型自由强化学习方法，我们的方法收敛速度更快。

Mar, 2021

具有内省修正的神经符号自然逻辑用于自然语言推理

本文介绍了一个基于强化学习和内省修订的神经符号自然逻辑框架，通过策略梯度对特定推断路径进行采样和奖励，并利用外部知识缓解虚假推理和训练低效问题。该模型具有内在的可解释性，在单调性推理、系统泛化和可解释性方面表现出优越能力，相对于先前的模型在现有数据集上表现更好。

Mar, 2022

具有可解释模型和策略网络的神经符号强化学习的三个路径

神经符号人工智能结合经典符号方法的可解释性、简洁性和显式推理与数据驱动神经方法的统计学习。本文在实际强化学习环境中展示了实现此类模型和策略的三个途径，并探讨了逻辑、模拟和学习的潜力和困难，以及与可学习性和可解释性之间的权衡关系。

Feb, 2024

具有逻辑神经网络的神经符号归纳逻辑编程

采用逻辑神经网络学习归纳逻辑规则，得出高度可解释且具有灵活参数化以适应数据的规则。

Dec, 2021

深度可解释关系强化学习：神经符号方法

提出了一种新的框架 Deep Explainable Relational Reinforcement Learning (DERRL)，它结合了神经网络和符号世界的优势来提取可解释的策略。通过在倒计时游戏、积木世界、网格世界和交通等不同环境中的实验证明，DERRL 可以适用于不同的配置和情境，从而具有通用性。

Apr, 2023

通过神经引导的符号抽象获得可解释的逻辑策略

研究介绍了一种基于神经网络和可微逻辑的方法，旨在同时实现可解释性和解释性，引入了物理引导的可微分逻辑策略，评估表明其在识别可解释的策略方面比仅使用神经策略更加优越。

Jun, 2023

深度符号强化学习

该研究提出了一个神经和符号端到端强化学习架构，能够克服当前深度学习技术的局限性，如需要非常大的数据集工作、难以实现高级认知功能和透明性欠佳等。研究者以简单的视频游戏为例，展示了这个架构的实现原型，结果表明它能够有效地学习，并通过获得一组符号规则，可将性能提高到比传统完全神经强化学习系统更好的水平。

Sep, 2016

深层归纳逻辑编程与强化学习相遇

我们提出了一种将可区分的神经逻辑网络应用于关系强化学习领域，以解决动态连续环境中的问题。该模型更新了架构，使其能够在连续强化学习环境中解决问题，并通过引入非线性连续谓词来改进当前的归纳逻辑编程方法，允许关系强化学习代理在动态和连续的环境中进行推理和决策。

Aug, 2023