May, 2022

离线策略比较与置信度评估:基准和基线

TL;DR本文通过在离线强化学习数据集上添加策略比较查询的方式创建了一个加置信度的离线政策比较基准 (OPCC),并对一类基于模型的基线的风险与覆盖率进行了实证评估,结果表明某些基线变体具有优势,同时未来研究中还有大有可为的改进空间。