Aug, 2023

线性马尔可夫决策过程的速率最优策略优化

TL;DR在线循环线性马尔可夫决策过程中的遗憾最小化与策略优化方法相关联,并且在随机情境下使用自调整速率达到最佳收敛速度,为该领域建立了最佳收敛速度的算法。