Dec, 2023

连续强化学习中的预测与控制

TL;DR本文提出了将值函数分解为两个组成部分的方法,分别在不同的时间尺度上更新,其中永久性值函数持有随时间持久存在的一般知识,而短暂性值函数允许快速适应新情况,理论结果表明这种方法非常适用于连续学习,并与神经科学中的互补学习系统(CLS)理论建立了联系,实证结果表明该方法在预测和控制问题上显著提高性能。