从语义到执行:将动作规划与强化学习相结合,用于机器人因果问题解决
本文提出了一种基于阿布达比符号规划的层次强化学习方法,该规划器可以处理用户定义的评估函数,并且不基于 Herbrand 定理。因此,它可以利用奖励的先前知识,并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时,相对于评估领域的训练样例数量,可以显著提高学习效率。
Jun, 2018
本文介绍了一种统一框架 PEORL,将符号计划与分层强化学习相结合,以应对不确定的动态环境下的决策制定,通过符号计划指导智能体的任务执行和学习,学到的经验则反馈给符号知识以改进计划,可在复杂领域产生快速的策略搜索和稳健的符号计划。
Apr, 2018
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
本文通过进行文献调查,以三个构成神经符号强化学习的组件为重点(神经网络、符号和强化学习),将研究作品进行分类,并分析其强化学习部分的组成。同时,发现了该领域中的研究机会和挑战。
Sep, 2023
本文提出了集成框架 SPOTTER,它使用强化学习来增强和支持规划代理,从而发现代理需要实现起初无法达成的目标所需的新运算符。 SPOTTER 在发现可转移的符号知识的同时优于纯 RL 方法并且不需要监督,成功计划跟踪或有关丢失的计划运算符的任何先验知识。
Dec, 2020
本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法,通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系,使用内在奖励学习定义层次强化学习中的操作,以增强其一致性与从容。实验结果表明,与现有方法相比,该方法在 MiniGrid 和 N 房间环境中表现更好。
Mar, 2022
通过在物理引擎中嵌入具有挑战性的符号任务(Sokoban,井字棋和围棋),引出了一组需要长时间视觉、推理和电机控制的任务,研究了现有的强化学习算法在这样的物理系统中的表现。同时,研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示,缩小抽象规划和物体控制之间的差距的方案。
Sep, 2020
本研究主要关注序列决策算法中的不确定性和风险问题,通过探索规划和强化学习两种方法,尤其是面向基于模型算法的研究,旨在缓解 epistemic 和 aleatoric 不确定性问题。
Apr, 2023