Feb, 2023

通过线性优化改进线性对抗 MDPs 的遗憾界

TL;DR本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题,通过将特征映射设置到线性优化的赌臂中,得到了不需要访问转移模拟器的新技术,并在探索性的假设下,将线性对手马尔科夫决策问题的最优结果从 $ ilde {O}(K^{6/7})$ 提高到了 $ ilde {O}(K^{4/5})$。