Jan, 2021

线性马尔可夫决策过程低切换成本可证效率算法

TL;DR本文着重于线性马尔可夫决策过程(MDP)问题中的低转换成本,并提出了第一个具有低转换成本的线性 MDP 算法,同时通过低转换成本较小而达到了大体积的泛化。