Mar, 2023

具有混淆偏差和缺失观察数据的情境赌博政策学习的统一框架

TL;DR研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题,提出了一种名为CAP的新算法,在数据的基础上形成奖励函数、建立置信区间,并通过悲观主义的方式贪心地采取行动来学习最优策略。