Jun, 2024

SaVeR: 基于表格型 MDP 的安全策略评估的最优数据收集策略

TL;DR本文研究了在表格化马尔可夫决策过程中针对策略评估目的的安全数据收集。我们考虑了行为策略的安全性约束,并提出了一种算法来近似安全的预言算法,并保证其满足安全性约束。通过模拟实验证明该算法在满足约束条件的情况下能够产生低均方误差的策略评估结果。