Mar, 2024

借势中介器的悲观因果强化学习与混淆线下数据

TL;DR通过采用基于前门准则的中介变量来消除混淆偏差,以及采用悲观原则来解决由候选策略引起的行为分布和生成观测数据的行为策略之间的分布偏移,我们提出了一种新颖的策略学习算法 PESsimistic CAusal Learning (PESCAL),并证明了算法的理论保证,并利用来自一家领先乘车平台的离线数据集的仿真和真实世界实验证明了其有效性。