BriefGPT.xyz
Ask
alpha
关键词
permanent value function
搜索结果 - 1
连续强化学习中的预测与控制
本文提出了将值函数分解为两个组成部分的方法,分别在不同的时间尺度上更新,其中永久性值函数持有随时间持久存在的一般知识,而短暂性值函数允许快速适应新情况,理论结果表明这种方法非常适用于连续学习,并与神经科学中的互补学习系统(CLS)理论建立了
→
PDF
7 months ago
Prev
Next