Dec, 2023

利用混淆和选择偏倚离线数据强化改进赌博算法:一种因果方法

TL;DR在这篇论文中,我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发,将这个问题分为混淆偏差和选择偏差,并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励,并能有效地指导代理学习几乎最优的决策策略。同时,我们进行了上下文和非上下文赌博机环境下的遗憾分析,并展示了先前的因果边界可以帮助持续减少渐近遗憾。