Oct, 2020

上下文匹配赌博机环境下的在线决策统计推断

TL;DR这篇论文研究在线决策问题,通过采用上下文乐队 it,并建立奖励模型来进行长期奖励最大化。 使用估计模型参数的 OLS 和 WLS 方法来处理该问题,借助中心极限定理证明了参数的渐近正常性。同时,我们还通过实验验证了我们的结论。