May, 2023
具有平均奖励的不安定强盗:打破统一全局吸引子假设
Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption
Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang
TL;DR本研究提出了一种基于模拟的框架,可以将单臂策略转换成适用于 N 臂问题的策略,并提供了在离散和连续时间框架下的计算上最优结果,且不需要 UGAP 假设。