Aug, 2020

开放式强化学习试验数据集和处理流程:朝着真实和可重复的离线评估

TL;DR介绍了 Open Bandit Dataset 数据集和 Python 软件 Open Bandit Pipeline,可以用于评估虚拟策略的表现和不同 OPE 统计方法的比较,从而促进 OPE 研究的公正透明和可重复性。