Oct, 2024

通过静态贝尔曼误差最大化实现确定性探索

TL;DR本研究针对强化学习中探索问题的挑战,提出了一种新的体系结构,通过对贝尔曼误差进行稳定优化,以实现确定性探索策略。我们的方法不仅使用以前的经验来优化探索过程,还为探索目标引入了与试验长度无关的策略,从而在稠密和稀疏奖励环境中超越了传统的ε-greedy策略。