Oct, 2021
一般情境强化学习模型选择的帕累托前沿
The Pareto Frontier of model selection for general Contextual Bandits
Teodor V. Marinov, Julian Zimmert
TL;DR研究模型选择中遇到的问题,证明了在_nested policy classes_中,无论时限和复杂度如何权衡,都不能同时得到所有策略的最优算法保证,并且在纯随机环境下,无法获得所需的结果;同时在_full-information games_中也解决了一个开放性问题。