Dec, 2021
利用线性函数近似的强化学习的一阶遗憾:一种鲁棒估计方法
First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach
TL;DR本研究基于鲁棒Catoni平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性MDP设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。