Feb, 2023

基于随机贪心学习的非单调随机次模最大化全博弈反馈

TL;DR本文研究具有完全机器人反馈和随机奖励的无限制组合多臂武器匪徒问题,提出随机贪心学习算法 (RGL),证明其对于时间区间 T 和武器数 n,达到 1/2 遗憾上限 Õ(T^(2/3)),并在实验中展示了其对于非次模和次模设置都优于其他全机器人变体。