Dec, 2022

离线学习的安全评估:我们准备好部署了吗?

TL;DR提出了一个安全评估离线学习的框架,通过近似高置信度离策略评估(HCOPE)估计在学习期间的策略性能,以在真实环境中部署之前评估新学习的策略的性能表现。