Jan, 2023

线性函数逼近的对抗式 MDP 的精炼遗憾

TL;DR本文研究了在损失函数任意的情况下,对于线性近似的 Q 函数,提出了两种算法,可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$,并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现,改进了之前的表现