Jun, 2022

前序特征

TL;DR探究了一种名为 'Predecessor Features' 的算法,它通过维护一个近似过去积累经验和的方法,允许将时序差分误差准确地传播到比传统方法更多的前身状态中,从而大大提高了增强学习的效率和性能。