Sep, 2024

为无休止多臂赌博机提供更快的Q学习算法

TL;DR本研究针对无休止多臂赌博机的问题,提出了Q学习算法及其变体,并探索了ε-贪婪和上置信界(UCB)策略的应用。研究发现,与其他Q学习算法相比,结合UCB策略的PhaseQL算法具有最优的收敛速度,显著提升了算法在学习过程中的效率。