PEORL: 集成符号化规划与层次化强化学习用于鲁棒性决策

IJCAIApr, 2018

PEORL: 集成符号化规划与层次化强化学习用于鲁棒性决策

PEORL: Integrating Symbolic Planning and Hierarchical Reinforcement Learning for Robust Decision-Making

Fangkai Yang, Daoming Lyu, Bo Liu, Steven Gustafson

TL;DR本文介绍了一种统一框架 PEORL，将符号计划与分层强化学习相结合，以应对不确定的动态环境下的决策制定，通过符号计划指导智能体的任务执行和学习，学到的经验则反馈给符号知识以改进计划，可在复杂领域产生快速的策略搜索和稳健的符号计划。

Abstract

reinforcement learning and symbolic planning have both been used to build intelligent autonomous agents. →

reinforcement learning symbolic planning autonomous agents decision-making hierarchical reinforcement learning

发现论文，激发创造

具有缩减计划的分层强化学习

本文提出了一种基于阿布达比符号规划的层次强化学习方法，该规划器可以处理用户定义的评估函数，并且不基于 Herbrand 定理。因此，它可以利用奖励的先前知识，并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时，相对于评估领域的训练样例数量，可以显著提高学习效率。

Jun, 2018

具有 AI 规划模型的分层强化学习

本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法，通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系，使用内在奖励学习定义层次强化学习中的操作，以增强其一致性与从容。实验结果表明，与现有方法相比，该方法在 MiniGrid 和 N 房间环境中表现更好。

Mar, 2022

从语义到执行：将动作规划与强化学习相结合，用于机器人因果问题解决

本文介绍了一种基于奖励稀疏性的桥梁方法，将符号行动计划和强化学习相结合，以解决在噪声条件下涉及工具使用和复杂因果依赖的对象操作问题，并成功利用了数据和知识。

May, 2019

PEAR: 用于增强分层强化学习的原语启用自适应重新标记

本研究提出一种基于 Hierarchical Reinforcement Learning (HRL) 和 imitation learning 的算法，称为 primitive enabled adaptive relabeling (PEAR)，其首先对少量的 expert demonstrations 进行自适应 relabeling，以生成子目标监督数据集，然后采用 imitation learning 来规范化 HRL agents，此方法可以被轻松地集成到典型的 model free reinforcement learning 算法中以解决大多数机器人任务。

Jun, 2023

SPOTTER: 通过有针对性的强化学习扩展符号规划操作

本文提出了集成框架 SPOTTER，它使用强化学习来增强和支持规划代理，从而发现代理需要实现起初无法达成的目标所需的新运算符。 SPOTTER 在发现可转移的符号知识的同时优于纯 RL 方法并且不需要监督，成功计划跟踪或有关丢失的计划运算符的任何先验知识。

Dec, 2020

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

SDRL：利用符号计划的可解释且数据高效的深度强化学习

该研究提出了一种符号深度强化学习（SDRL）框架，该框架通过引入符号规划来实现任务层面的可解释性，并运用计划器 - 控制器 - 元控制器架构进行子任务调度、数据驱动子任务学习和子任务评估，实现与长期规划能力、符号知识以及直接从高维感官输入进行端到端强化学习的优点相结合，并在实验结果中证实了子任务可解释性与与现有技术相比的数据效率改进。

Oct, 2018

神经符号强化学习与规划：综述

本文通过进行文献调查，以三个构成神经符号强化学习的组件为重点（神经网络、符号和强化学习），将研究作品进行分类，并分析其强化学习部分的组成。同时，发现了该领域中的研究机会和挑战。

Sep, 2023

神经符号方法在可解释性和概率决策中的多智能体强化学习

多智能体强化学习（MARL）在优化多智能体共享资源中的系统性能方面具有潜力，但常见的深度学习 MARL 解决方案在真实世界问题中存在可解释性、样本效率、部分可观察性等问题。为了解决这些挑战，我们提出了一种基于事件驱动的公式，利用神经符号方法处理分布式协作 MARL 智能体的决策制定。我们还开发了一种新颖的概率神经符号框架，概率逻辑神经网络（PLNN），将逻辑推理能力与概率图模型相结合，以实现在不确定性和部分可观察性下的决策制定。我们通过解决片上系统中的功率共享问题来展示我们的研究成果。

Feb, 2024

一阶逻辑中的神经符号强化学习

为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示，我们提出了一种新的基于逻辑神经网络的强化学习方法，该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略，实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。

Oct, 2021