Sep, 2023

通过基于模型的展开实现下层强化学习的引导协作

TL;DR通过引入模型预测、渐进惩罚等方法,本研究提出了一种基于目标条件的层次强化学习框架,实现了不同层级之间的合作,从而提高了长期目标探索任务中政策的稳定性和效率。实验结果表明,该框架在难度较高的探索问题和机器人控制方面,比基准模型和之前的最先进的层次强化学习算法表现更为稳定和优越。