Jan, 2023

线性函数逼近的对抗式MDP的精炼遗憾

TL;DR本文研究了在损失函数任意的情况下,对于线性近似的Q函数,提出了两种算法,可以在拥有模拟器的情况下使得损失最小值达到$\tilde{\mathcal O}(\sqrt K)$,并在无模拟器情况下实现了 $ ilde{\mathcal O}(K^{8/9})$ 的表现,改进了之前的表现