Aug, 2023

非平稳低秩 MDP 的可证明高效算法

TL;DR本研究在探讨非平稳马尔可夫决策过程下的强化学习问题,针对低秩模型中存在未知表示的情况,提出了参数依赖的优化算法 PORTAL 和参数无关的改进版 Ada-PORTAL,通过样本复杂度进行理论分析并得出上界,证明了在非平稳性不显著时,这两种算法均能够以多项式样本复杂度实现任意小的平均动态次优差距。