Mar, 2021

离线强化学习和模仿学习的联系:一则悲观的故事

TL;DR提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法 LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。