PEORL: 集成符号化规划与层次化强化学习用于鲁棒性决策
本文提出了一种基于阿布达比符号规划的层次强化学习方法,该规划器可以处理用户定义的评估函数,并且不基于 Herbrand 定理。因此,它可以利用奖励的先前知识,并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时,相对于评估领域的训练样例数量,可以显著提高学习效率。
Jun, 2018
本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法,通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系,使用内在奖励学习定义层次强化学习中的操作,以增强其一致性与从容。实验结果表明,与现有方法相比,该方法在 MiniGrid 和 N 房间环境中表现更好。
Mar, 2022
本文介绍了一种基于奖励稀疏性的桥梁方法,将符号行动计划和强化学习相结合,以解决在噪声条件下涉及工具使用和复杂因果依赖的对象操作问题,并成功利用了数据和知识。
May, 2019
本研究提出一种基于 Hierarchical Reinforcement Learning (HRL) 和 imitation learning 的算法,称为 primitive enabled adaptive relabeling (PEAR),其首先对少量的 expert demonstrations 进行自适应 relabeling,以生成子目标监督数据集,然后采用 imitation learning 来规范化 HRL agents,此方法可以被轻松地集成到典型的 model free reinforcement learning 算法中以解决大多数机器人任务。
Jun, 2023
本文提出了集成框架 SPOTTER,它使用强化学习来增强和支持规划代理,从而发现代理需要实现起初无法达成的目标所需的新运算符。 SPOTTER 在发现可转移的符号知识的同时优于纯 RL 方法并且不需要监督,成功计划跟踪或有关丢失的计划运算符的任何先验知识。
Dec, 2020
本文研究如何构建通用且高效的层次强化学习算法,其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督,并使用脱离策略的经验来提高效率。我们称此算法为 HIRO,并在模拟机器人上的实验中表现出高性能和高样本效率。
May, 2018
该研究提出了一种符号深度强化学习(SDRL)框架,该框架通过引入符号规划来实现任务层面的可解释性,并运用计划器 - 控制器 - 元控制器架构进行子任务调度、数据驱动子任务学习和子任务评估,实现与长期规划能力、符号知识以及直接从高维感官输入进行端到端强化学习的优点相结合,并在实验结果中证实了子任务可解释性与与现有技术相比的数据效率改进。
Oct, 2018
本文通过进行文献调查,以三个构成神经符号强化学习的组件为重点(神经网络、符号和强化学习),将研究作品进行分类,并分析其强化学习部分的组成。同时,发现了该领域中的研究机会和挑战。
Sep, 2023
多智能体强化学习(MARL)在优化多智能体共享资源中的系统性能方面具有潜力,但常见的深度学习 MARL 解决方案在真实世界问题中存在可解释性、样本效率、部分可观察性等问题。为了解决这些挑战,我们提出了一种基于事件驱动的公式,利用神经符号方法处理分布式协作 MARL 智能体的决策制定。我们还开发了一种新颖的概率神经符号框架,概率逻辑神经网络(PLNN),将逻辑推理能力与概率图模型相结合,以实现在不确定性和部分可观察性下的决策制定。我们通过解决片上系统中的功率共享问题来展示我们的研究成果。
Feb, 2024
为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示,我们提出了一种新的基于逻辑神经网络的强化学习方法,该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略,实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。
Oct, 2021