Aug, 2024

GINO-Q:学习一种渐近最优的索引策略用于无休止多臂老虎机

TL;DR本研究解决了无休止多臂老虎机(RMAB)中由于状态空间和行动空间指数增长带来的求解困难问题。提出了一种名为GINO-Q的三时尺度随机逼近算法,该算法通过将RMAB分解为多个维度较低的子问题来学习渐近最优的索引策略,从而避免维度诅咒。实验结果表明,GINO-Q在非索引able RMABs中表现出色,学习到的策略接近最优,且收敛速度明显快于现有基线。