Feb, 2021

Bellman Eluder 维度:强化学习新丰富问题类别和高样本效率算法

TL;DR本篇研究提出了一种新的复杂度测量方法 - Bellman Eluder (BE) 维度,以此来解决强化学习中如何提高样本效率的问题,并且设计了两种算法,GOLF 与 OLIVE,来最优地学习 BE 维度问题的策略,并推导出相关的后悔和样本复杂度结果。