具有混淆偏差和缺失观察数据的情境赌博政策学习的统一框架

Mar, 2023

具有混淆偏差和缺失观察数据的情境赌博政策学习的统一框架

A Unified Framework of Policy Learning for Contextual Bandit with Confounding Bias and Missing Observations

Siyu Chen, Yitan Wang, Zhaoran Wang, Zhuoran Yang

TL;DR研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题，提出了一种名为CAP的新算法，在数据的基础上形成奖励函数、建立置信区间，并通过悲观主义的方式贪心地采取行动来学习最优策略。

Abstract

We study the offline contextual bandit problem, where we aim to acquire an optimal policy using observational data. However, this data usually contains two deficiencies: (i) some variables that confound actions a