带有目标关系图的层次化和部分可观察的目标驱动策略学习
我们提出了一种通过紧密的表示来发现目标表示的发展机制,该机制可以将具有类似任务角色的环境状态集合抽象(即,分组在一起)。我们引入了一种 Feudal HRL 算法,该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法,结果表明所学到的表示是可解释的、可传递的,并且可以实现高效的学习。
Sep, 2023
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
Sep, 2023
提出一种新的强化学习(Reinforcement Learning)模型,具有可解释性且支持深层次子目标(subgoal hierarchies)的发现。该模型使用概率规则学习有关环境的信息,而(子)目标的策略则是它们的组合。学习无需奖励函数,只需提供主要目标,而目标的子目标被计算为状态的描述,如果先前达成这些描述,便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中,从而允许传感到重要的中间状态并相应地更新环境规则和策略。
Feb, 2022
本文提出了一种基于图形输入的两步式 RL 策略,透过实用化分类问题将决策过程分解为两个步骤并采用规则挖掘器进行推理,能够生成可解释和鲁棒的分层策略并在复杂文本游戏领域呈现出更好的泛化和稳健性。
Jan, 2022
通过对理想目标空间的研究,系统地分析的各种修改对分层模型学习的影响,结果表明旋转目标空间和噪声对学习没有影响,而具有额外的不必要因素显著地损害了分层模型的学习效果。
May, 2019
我们提出了一种基于目标条件的强化学习算法,结合了解缠绕的可达性规划(REPlan),用于解决时间延展任务,在模拟和真实世界任务中,REPlan 显著优于之前最先进的方法。
Jul, 2023
提出了一种新的强化学习问题,该问题需要代理在一个由子任务图描述的先前未见的环境中进行泛化,我们提出了一种神经子任务图求解器,通过使用递归神经网络嵌入来编码子任务图,并用基于梯度的策略,图奖励传播来预训练它,进一步通过演员 - 评论家方法微调它,实验结果表明,我们的代理可以进行复杂的推理,找到执行子任务图的近似最优方式,并且在未见的子任务图上具备很好的泛化性能。
Jul, 2018