Sep, 2022

混淆核化赌博机的双重仪器方法

TL;DR本论文中,我们解决了在 contextual bandit 问题中噪声被 confounder 影响的问题,引入了潜在的 confounder,并且应用了双重工具变量回归来解决 reward function 估计中的偏差问题,设计出基于理论保障的计算效率高且 regret-optimal 的算法。