Feb, 2021

线性回报的双重稳健的汤普森抽样

TL;DR本文提出一种名为 DR Thompson Sampling 的多臂上下文赌博算法,并利用缺失数据文献中使用的双重稳健估计器提供先验概率在最坏情况下的保证率和次均方误差,具体表现为对因变量和全部或几个自变量进行回归的误差。他们发现该方法在实践中的表现优于 LinTS。