Jun, 2024

概率子目标表示的分层强化学习

TL;DR高层策略给出低层策略达到的子目标,在这篇论文中,我们提出了一种基于高斯过程的概率子目标表示方法,通过可学习的核函数利用状态空间的长程相关性来学习先验规划步骤中的长程子目标信息,从而适应不确定性。同时,我们还提出了一种新的学习目标,以实现概率子目标表示和策略的同时学习。实验结果表明,我们的方法在标准基准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准,并且我们的模型在不同任务之间转移低层策略具有良好的性能。