Jan, 2022

自适应前瞻规划与学习

TL;DR本研究介绍了一种新的强化学习框架,提出了基于状态相关价值估计的自适应规划水平选择策略,并设计了相应的深度 Q 网络算法,最后在迷宫环境和 Atari 上验证了方法的有效性。