BriefGPT.xyz
Ask
alpha
关键词
linear mdp setting
搜索结果 - 1
利用线性函数近似的强化学习的一阶遗憾:一种鲁棒估计方法
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
PDF
3 years ago
Prev
Next