Mar, 2020

利用平均值:RL中KL正则化的分析

TL;DR本文探讨强化学习中的KL正则化,发现其内在地平均了q-values,并推导了一个具有两个优点的性能上界。该性能上界在时间序列上的依赖是线性的而非二次的,误差传播方程涉及到估计误差的平均效果而非累积效果。我们也对额外熵正则化的更一般情况进行了研究,这个抽象模型包含了许多现有的强化学习算法。