Aug, 2024
GINO-Q:学习一种渐近最优的索引策略用于无休止多臂老虎机
GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless
Multi-armed Bandits
TL;DR本研究解决了无休止多臂老虎机(RMAB)中由于状态空间和行动空间指数增长带来的求解困难问题。提出了一种名为GINO-Q的三时尺度随机逼近算法,该算法通过将RMAB分解为多个维度较低的子问题来学习渐近最优的索引策略,从而避免维度诅咒。实验结果表明,GINO-Q在非索引able RMABs中表现出色,学习到的策略接近最优,且收敛速度明显快于现有基线。