Jun, 2016

基于oracle的对抗性情境赌博算法的改进遗憾界

TL;DR提出了一种基于oracle的算法来应对敌对情境下的赌博问题,该算法在访问离线优化Oracle并且享有$O((KT)^{\frac{2}{3}}(\log N)^{\frac{1}{3}})$的遗憾度的情况下是计算有效的,其中K是操作的数量,T是迭代次数,N是基线策略的数量。