Feb, 2024
多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化
Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization
TL;DR提出了一种新颖的模型无关的集合强化学习算法,通过在多个合成的与马尔可夫决策过程相关的环境上运行多个Q学习算法,并使用基于Jensen-Shannon差异的自适应加权机制来融合输出,获得具有低复杂度的近似最优策略。与最先进的Q学习算法相比,数值实验结果显示,该算法平均策略误差可以减少高达55%,运行时复杂度可以减少高达50%,并验证了理论分析中的假设。