符号、子符号和混合方法在顺序决策制定方面的综述
近年来,自动规划(AP)和强化学习(RL)的整合引起了广泛关注。为了实现这种整合,我们试图提供一个适用于从传统规划到深度强化学习的任何方法的顺序决策制定(SDM)的通用框架,该框架借鉴了概率论和贝叶斯推断的概念。我们用训练和测试的马尔可夫决策过程(MDPs)集合来定义 SDM 任务,以考虑泛化性。我们提供了一个 SDM 的通用算法,并推测每个 SDM 方法都基于它。根据该算法,每个 SDM 算法可以被看作是通过利用可用的任务知识来迭代改进其解决方案估计的过程。最后,我们推导出一组用于计算 SDM 任务和方法的有趣属性的公式和算法,从而使得它们的经验评估和比较成为可能。
Oct, 2023
本文通过进行文献调查,以三个构成神经符号强化学习的组件为重点(神经网络、符号和强化学习),将研究作品进行分类,并分析其强化学习部分的组成。同时,发现了该领域中的研究机会和挑战。
Sep, 2023
该研究提出了一种符号深度强化学习(SDRL)框架,该框架通过引入符号规划来实现任务层面的可解释性,并运用计划器 - 控制器 - 元控制器架构进行子任务调度、数据驱动子任务学习和子任务评估,实现与长期规划能力、符号知识以及直接从高维感官输入进行端到端强化学习的优点相结合,并在实验结果中证实了子任务可解释性与与现有技术相比的数据效率改进。
Oct, 2018
本文介绍了近似符号模型引导的强化学习方法,该方法将字符的建模与底层措施相结合,以在不完整的符号模型信息下发现任务结构并有效地引导强化学习智能体向目标靠拢。
Feb, 2022
本研究中,通过将符号操作和神经采样器与参数化策略相结合,将它们打包成模块化的神经符号技能,并将其顺序化组合为搜索 - 采样二层任务和动作规划来解决新任务。在四个机器人领域的实验中,展示了具有神经符号技能的二层规划策略能够解决各种具有不同初始状态、目标和对象的任务,优于六个基线和消融。
Jun, 2022
这篇论文调查了在图结构上执行神经符号推理任务的广泛方法,并提出了一个新的分类法来比较这些方法,包括基于逻辑推理嵌入方法、施加逻辑约束的嵌入方法和规则学习方法。此外,还提供了一个表格概述这些方法。
Feb, 2023
本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法,通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系,使用内在奖励学习定义层次强化学习中的操作,以增强其一致性与从容。实验结果表明,与现有方法相比,该方法在 MiniGrid 和 N 房间环境中表现更好。
Mar, 2022
本文介绍了一种统一框架 PEORL,将符号计划与分层强化学习相结合,以应对不确定的动态环境下的决策制定,通过符号计划指导智能体的任务执行和学习,学到的经验则反馈给符号知识以改进计划,可在复杂领域产生快速的策略搜索和稳健的符号计划。
Apr, 2018
本文介绍了一种基于奖励稀疏性的桥梁方法,将符号行动计划和强化学习相结合,以解决在噪声条件下涉及工具使用和复杂因果依赖的对象操作问题,并成功利用了数据和知识。
May, 2019