Nov, 2023

学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

TL;DR通过代表学习、探索和利用等相互交织的方法,本论文以非线性函数逼近和对抗性损失为基础,提出一种 POLO 算法,以实现对低秩马尔可夫决策过程 (Low-rank MDPs) 的次线性遗憾保证。