Feb, 2023
通过线性优化改进线性对抗MDPs的遗憾界
Improved Regret Bounds for Linear Adversarial MDPs via Linear
Optimization
TL;DR本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题,通过将特征映射设置到线性优化的赌臂中,得到了不需要访问转移模拟器的新技术,并在探索性的假设下,将线性对手马尔科夫决策问题的最优结果从 $ ilde{O}(K^{6/7})$ 提高到了 $ ilde{O}(K^{4/5})$。