KDDJul, 2022

强化学习中的模型选择与通用函数逼近

TL;DR该研究考虑经典强化学习环境下的模型选择问题,提出了针对 Multi Armed Bandits(MABs)和 Markov Decision Processes(MDPs)的高效自适应模型选择算法,并证明了在假设类可分离的情况下,该算法的累积损失与正规则匹配。