May, 2024

基于特征 - 占据梯度上升的离线强化学习

TL;DR我们研究了大规模无穷时间折扣马尔可夫决策过程中离线强化学习的问题,当奖励和转移模型在已知特征映射下可线性实现。我们提出了一种新的算法,通过在特征占据空间中进行一种梯度上升的形式来解决这个问题。我们证明了该算法在文献中已知的最不严格的数据覆盖假设下具有强大的计算和样本复杂度保证。此外,我们的方法易于实现,并且不需要关于覆盖比例(甚至上界)的先验知识,这使其成为迄今为止已知的最优算法。