Jun, 2024

无限时间平均回报马尔科夫决策过程的强化学习与多项式逻辑函数逼近

TL;DR我们研究了具有非线性函数逼近的基于模型的强化学习,其中底层马尔可夫决策过程(MDP)的转移函数由一个多项式逻辑模型给出。本文针对无限时间平均奖励设定,提出了两种算法。第一个算法 UCRL2-MNL 适用于通信 MDP 类,并实现了一种具有 (近似)Ο(dD√T) 的遗憾保证,其中 d 是特征映射的维数,D 是底层 MDP 的直径,T 是时间界。第二个算法 OVIFH-MNL 在计算上更有效,并适用于更一般的弱通信 MDP 类,我们展示了其具有 (近似)Ο(d^(2/5) sp (v^*) T^(4/5)) 的遗憾保证,其中 sp (v^*) 是相关最优偏差函数的散度。我们还证明了对于最大直径为 D 的可通信 MDP,学习具有 MNL 转移的复杂度的 Ω(d√(DT)) 的下界。此外,我们对于具有 MNL 函数逼近的 H - 时间界的情况,展示了 Ω(dH^(3/2)√K) 的遗憾下界,在这里 K 是序列的数量,该下界优于有限时间界设定的已知最佳下界。