Oct, 2021

一般情境强化学习模型选择的帕累托前沿

TL;DR研究模型选择中遇到的问题,证明了在_nested policy classes_中,无论时限和复杂度如何权衡,都不能同时得到所有策略的最优算法保证,并且在纯随机环境下,无法获得所需的结果;同时在_full-information games_中也解决了一个开放性问题。