Feb, 2024

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

TL;DR提出了一种新颖的模型无关的集合强化学习算法,通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法,并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出,获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比,数值实验结果显示,该算法平均策略误差可以减少高达 55%,运行时复杂度可以减少高达 50%,并验证了理论分析中的假设。