从语义到执行：将动作规划与强化学习相结合，用于机器人因果问题解决

May, 2019

从语义到执行：将动作规划与强化学习相结合，用于机器人因果问题解决

From semantics to execution: Integrating action planning with reinforcement learning for robotic causal problem-solving

Manfred Eppe, Phuong D.H. Nguyen, Stefan Wermter

TL;DR本文介绍了一种基于奖励稀疏性的桥梁方法，将符号行动计划和强化学习相结合，以解决在噪声条件下涉及工具使用和复杂因果依赖的对象操作问题，并成功利用了数据和知识。

Abstract

reinforcement learning is an appropriate and successful method to robustly perform low-level robot control under noisy conditions. Symbolic action planning is useful to resolve causal dependencies and to break a causally complex problem down into a sequence of simpler →

reinforcement learning symbolic action planning high-level actions reward-sparsity neuro-symbolic method

发现论文，激发创造

具有缩减计划的分层强化学习

本文提出了一种基于阿布达比符号规划的层次强化学习方法，该规划器可以处理用户定义的评估函数，并且不基于 Herbrand 定理。因此，它可以利用奖励的先前知识，并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时，相对于评估领域的训练样例数量，可以显著提高学习效率。

Jun, 2018

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

PEORL: 集成符号化规划与层次化强化学习用于鲁棒性决策

本文介绍了一种统一框架 PEORL，将符号计划与分层强化学习相结合，以应对不确定的动态环境下的决策制定，通过符号计划指导智能体的任务执行和学习，学到的经验则反馈给符号知识以改进计划，可在复杂领域产生快速的策略搜索和稳健的符号计划。

Apr, 2018

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

回放缓存搜索：连接计划和强化学习

我们介绍了一种结合规划算法和强化学习的通用控制算法，称为搜索回放缓冲（SoRB），可以自动生成子目标序列并解决高维度的长期任务。

Jun, 2019

神经符号强化学习与规划：综述

本文通过进行文献调查，以三个构成神经符号强化学习的组件为重点（神经网络、符号和强化学习），将研究作品进行分类，并分析其强化学习部分的组成。同时，发现了该领域中的研究机会和挑战。

Sep, 2023

SPOTTER: 通过有针对性的强化学习扩展符号规划操作

本文提出了集成框架 SPOTTER，它使用强化学习来增强和支持规划代理，从而发现代理需要实现起初无法达成的目标所需的新运算符。 SPOTTER 在发现可转移的符号知识的同时优于纯 RL 方法并且不需要监督，成功计划跟踪或有关丢失的计划运算符的任何先验知识。

Dec, 2020

具有 AI 规划模型的分层强化学习

本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法，通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系，使用内在奖励学习定义层次强化学习中的操作，以增强其一致性与从容。实验结果表明，与现有方法相比，该方法在 MiniGrid 和 N 房间环境中表现更好。

Mar, 2022

物理嵌入式规划问题：强化学习的新挑战

通过在物理引擎中嵌入具有挑战性的符号任务（Sokoban，井字棋和围棋），引出了一组需要长时间视觉、推理和电机控制的任务，研究了现有的强化学习算法在这样的物理系统中的表现。同时，研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示，缩小抽象规划和物体控制之间的差距的方案。

Sep, 2020

风险敏感和鲁棒的基于模型的强化学习和规划

本研究主要关注序列决策算法中的不确定性和风险问题，通过探索规划和强化学习两种方法，尤其是面向基于模型算法的研究，旨在缓解 epistemic 和 aleatoric 不确定性问题。

Apr, 2023