Feb, 2021
Bellman Eluder 维度:强化学习新丰富问题类别和高样本效率算法
Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms
Chi Jin, Qinghua Liu, Sobhan Miryoosefi
TL;DR本篇研究提出了一种新的复杂度测量方法 - Bellman Eluder (BE) 维度,以此来解决强化学习中如何提高样本效率的问题,并且设计了两种算法,GOLF 与 OLIVE,来最优地学习 BE 维度问题的策略,并推导出相关的后悔和样本复杂度结果。