Sep, 2022

混淆核化赌博机的双重仪器方法

TL;DR本论文中,我们解决了在contextual bandit问题中噪声被confounder影响的问题,引入了潜在的confounder,并且应用了双重工具变量回归来解决reward function估计中的偏差问题,设计出基于理论保障的计算效率高且regret-optimal的算法。