Jul, 2020

强化学习离线策略评估中的近最优可证明一致收敛

TL;DR该研究旨在解决强化学习中离线策略评估问题,通过同时评估策略类别中的所有策略,实现一致收敛,并获得了多种全局 / 局部策略类别的近乎最优误差界限。