Jun, 2023

基于地标的主动探索与稳定底层策略学习

TL;DR本文介绍了一种基于目标状态和价值函数的探索策略,可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。