Jun, 2024

双向可达层次强化学习与相互响应策略

TL;DR通过互相共享信息和错误修正,我们提出了一种具有双向可达性的层次强化学习算法(BrHPO),该算法在长时间跨度任务中优于其他现有的层次强化学习方法,且具有更高的探索效率和鲁棒性。