Dec, 2020

基于反事实数据增强的高效强化学习

TL;DR该研究提出一种数据效率的强化学习算法,利用结构因果模型来进行状态动态建模,从而实现反事实推理以及避免因数据不足带来的偏见问题。该算法对于少样本数据情况下的个体级政策学习有较好效果。