Nov, 2020
随机变分不等式的简洁优化方法,II:马尔可夫噪声与强化学习策略评估
Simple and optimal methods for stochastic variational inequalities, II: Markovian noise and policy evaluation in reinforcement learning
Georgios Kotsalis, Guanghui Lan, Tianjiao Li
TL;DR本文研究了马尔可夫噪声下的随机泛型不等式问题,并提出了用于强化学习中的随机策略评估问题的算法,包括改进的标准 TD 算法和快速 TD 算法等。