具有缩减计划的分层强化学习
本文介绍了一种统一框架 PEORL,将符号计划与分层强化学习相结合,以应对不确定的动态环境下的决策制定,通过符号计划指导智能体的任务执行和学习,学到的经验则反馈给符号知识以改进计划,可在复杂领域产生快速的策略搜索和稳健的符号计划。
Apr, 2018
本文介绍了一种基于奖励稀疏性的桥梁方法,将符号行动计划和强化学习相结合,以解决在噪声条件下涉及工具使用和复杂因果依赖的对象操作问题,并成功利用了数据和知识。
May, 2019
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
Sep, 2023
本研究介绍了一种使用深度神经网络自动生成机器人特定体系结构进行环境预测和自动计算抽象状态和动作的方法,得到的结果可用于提高机器人的规划性能和可靠性。研究结果表明,所学习的抽象状态和动作可以与一种新型的多源双向分层机器人规划算法配合使用,在测试环境中的计划时间上的表现比现有技术的基准方法提高了近 10 倍。
Feb, 2022
提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程 (ADP) 中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法,优于现有的分层强化学习算法。
Oct, 2020
本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法,通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系,使用内在奖励学习定义层次强化学习中的操作,以增强其一致性与从容。实验结果表明,与现有方法相比,该方法在 MiniGrid 和 N 房间环境中表现更好。
Mar, 2022
我们提出了一种通过紧密的表示来发现目标表示的发展机制,该机制可以将具有类似任务角色的环境状态集合抽象(即,分组在一起)。我们引入了一种 Feudal HRL 算法,该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法,结果表明所学到的表示是可解释的、可传递的,并且可以实现高效的学习。
Sep, 2023
本文提出了一种用于有效的多任务强化学习的新框架,该框架可以训练代理人使用分层策略,决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系,并在 Minecraft 游戏中进行了验证。
Dec, 2017
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018