Jun, 2019

强化学习的本质高效、稳定和有界离线策略评估

TL;DR本文提出了一种基于经验似然的 OPE 估算器,相对于重要性抽样、自归一化重要性抽样和双重稳健估计具有更高的效率,并满足自归一化重要性抽样的稳定性和有界性。