Nov, 2020

随机变分不等式的简洁优化方法,II:马尔可夫噪声与强化学习策略评估

TL;DR本文研究了马尔可夫噪声下的随机泛型不等式问题,并提出了用于强化学习中的随机策略评估问题的算法,包括改进的标准 TD 算法和快速 TD 算法等。