Oct, 2020

利普希茨价值迭代的异策略区间估计

TL;DR研究提出了用于获得一般连续情况下离线策略评估的区间界限的可证明正确的方法,该方法基于搜索与观察一致的所有 Lipschitz Q 函数中期望奖励的最大和最小值,进而引入了 Lipschitz 值迭代方法以加紧区间,可以在一定程度上提高部分高风险应用的效率。