May, 2023

具有平均奖励的不安定强盗:打破统一全局吸引子假设

TL;DR本研究提出了一种基于模拟的框架,可以将单臂策略转换成适用于 N 臂问题的策略,并提供了在离散和连续时间框架下的计算上最优结果,且不需要 UGAP 假设。