Feb, 2023

带有长期回报的随机情境赌博机

TL;DR该研究探讨了基于上下文的线性赌博机,考虑到先前的行动和语境对当前奖励的影响,提出了利用稀疏性建立依赖模式和臂参数的新算法,并在两种情境下证明了规避多项式依赖于奖励层面的新保证。