ICLRAug, 2022

强化学习的谱分解表示

TL;DR本文提出了一种名为 SPEDER 的替代谱方法,它从动态中提取状态 - 动作抽象,同时平衡学习过程中的探索与利用,并在在线和离线设置中证明了其样本效率及在多项基准测试中的优越性能。